Uvod v orodja Hadoop

Orodja Hadoop so okvir, ki se uporablja za obdelavo velike količine podatkov. Ti podatki se razdelijo na gručo in se razdeli računalništvo. Podatki so shranjeni v blokih velikosti 128Mb in za obdelavo in doseganje rezultatske moči se zmanjša Map Map Reduce. Tradicionalno Map in Reduce sta bila napisana na Javi, vendar je bilo težko prestopiti vire, ki delujejo v podatkovnem skladišču, saj s tem niso imeli izkušenj. SQL je dobro znan in je enostaven za uporabo, tako da je z iskanjem načina za pisanje SQL-a kot poizvedbe, ki se pretvori v Map and Reduce, to ustanovil Facebook in kasneje podaril Apache, to orodje je znano kot Hive. Yahoo je pripravil tudi orodje Pig, ki ga ob izvrševanju pretvori v Map Reduce, podobno imamo tudi Sqoop in flume za orodja za gibanje podatkov in vbrizgavanje. HBase je sistem za upravljanje podatkovnih baz.

Značilnosti orodja Hadoop

  1. Panj
  2. Prašič
  3. Sqoop
  4. HBase
  5. Oskrbnik živalskega vrta
  6. Cvetje

Zdaj bomo videli funkcije s kratko razlago.

1. Panj

Apache Pive je ustanovil Facebook in kasneje podaril fundaciji Apache, ki je infrastruktura skladišča podatkov, omogoča lažje pisanje SQL kot poizvedba imenovana HQL ali HiveQL. Ta poizvedba se notranje pretvori v opravila Map Reduce in obdelava se izvede s pomočjo distribuiranega računa Hadoop. Lahko obdeluje podatke, ki so v HDFS, S3 in vse shranjevanje, združljivo s Hadoopom. Zmogljivosti, ki jih nudi Map Reduce, lahko uporabimo vedno, ko v podjetju Hive ugotovimo, da je nekaj težko izvedljivega s pomočjo uporabniško definiranih funkcij. Uporabniku omogoča registracijo UDF-jev in uporabo v opravilih.

Značilnosti panja

  • Hive lahko obdeluje številne vrste datotek, kot so datoteka zaporedja, ORC datoteka, TextFile itd.
  • Za hitrejše izvajanje so na voljo particioniranje, združevanje in indeksiranje.
  • Stisnjene podatke lahko naložite tudi v panj tabele.
  • Nadzorne ali notranje tabele in zunanje tabele so pomembne lastnosti podjetja Pive.

2. Prašič

Yahoo je razvil prašič Apache, da je dodatno orodje za krepitev Hadoopa omogočil ad hoc način izvajanja zmanjšanja zemljevidov. Pig ima motor, imenovan Pig Engine, ki skripte pretvori v pomanjšanje zemljevida. Pig je skriptni jezik, skripti za Pig so v PigLatinu, tako kot Hive tukaj tudi mi lahko imamo UDF za izboljšanje funkcionalnosti. Naloge v Pig so samodejno optimizirane, zato programerjem ni treba skrbeti za to. Prašič obravnava tako strukturirane kot nestrukturirane podatke.

Značilnosti prašiča

  • Uporabniki imajo lahko svoje funkcije za posebno vrsto obdelave podatkov.
  • Kode v Pig je enostavno napisati primerjalno, tudi dolžina kode je manjša.
  • Sistem lahko samodejno optimizira izvedbo.

3. Sqoop

Sqoop se uporablja za prenos podatkov iz HDFS v RDBMS in obratno. Podatke lahko potegnemo v HDFS iz RDBMS, Pive itd. In jih lahko obdelujemo in izvozimo nazaj v RDBMS. Podatke lahko večkrat pripnemo v tabelo, lahko tudi naredimo Sqoop opravilo in ga izvedemo 'n' številokrat.

Značilnosti Sqoopa

  • Sqoop lahko v HDFS hkrati uvozi vse tabele.
  • Vdelamo lahko poizvedbe SQL kot tudi pogoje pri uvozu podatkov.
  • Podatke lahko uvažamo v panj, če je tabela iz HDFS.
  • Število preslikav se lahko nadzira, tj. Vzporedno izvedbo lahko nadzirate tako, da določite število preslikav.

4. HBase

Sistem za upravljanje baz podatkov na vrhu HDFS se imenuje HBase. HBase je baza podatkov NoSQL, ki je razvita na vrhu HDFS. HBase ni relacijska podatkovna baza, ne podpira strukturiranih poizvedbenih jezikov. HBase uporablja porazdeljeno obdelavo HDFS. Lahko ima velike mize z milijoni in milijoni plošč.

Značilnosti HBase

  • HBase zagotavlja razširljivost tako v linearni kot v modularni obliki.
  • API-je v JAVA je mogoče uporabiti za dostop do strank.
  • HBase zagotavlja lupino za izvajanje poizvedb.

5. Zookeeper

Apache Zookeeper je storitev centraliziranega vzdrževanja konfiguracije, vodi evidenco informacij, poimenovanja, omogoča tudi porazdeljeno sinhronizacijo in skupinske storitve. Zookeeper je centralizirano skladišče, ki ga distribuirane aplikacije uporabljajo za dajanje in pridobivanje podatkov o njem. Pomaga tudi pri upravljanju vozlišč, tj. Za priključitev ali puščanje vozlišča v grozdu. Omogoča zelo zanesljiv register podatkov, ko je malo vozlišč navzdol.

Značilnosti Zookeeperja

  • Učinkovitost lahko povečate z razdelitvijo nalog, ki jih dosežete z dodajanjem več strojev.
  • Skriva kompleksnost distribucije in se predstavlja kot en sam stroj.
  • Napaka nekaj sistemov ne vpliva na celoten sistem, a pomanjkljivost je, da lahko privede do delne izgube podatkov.
  • Zagotavlja Atomicity, tj. Transakcija je uspešna ali neuspešna, vendar ni v nepopolnem stanju.

6. Žarnica

Apache Flume je orodje, ki omogoča zaužitje podatkov, ki lahko zbere, združi in prenese ogromno podatkov iz različnih virov v HDFS, HBase itd. Flume je zelo zanesljiv in ga je mogoče konfigurirati. Zasnovan je za zaužitje pretočnih podatkov s spletnega strežnika ali podatkov o dogodkih v HDFS, npr. Lahko zaužije twitter podatke v HDFS. Flume lahko shrani podatke v katero koli od centraliziranih shramb podatkov, kot je HBase / HDFS. Če pride do višje hitrosti ustvarjanja podatkov v primerjavi s hitrostjo zapisovanja podatkov, potem flume deluje kot posrednik in zagotavlja neprekinjen pretok podatkov.

Značilnosti Flume

  • Lahko zaužije podatke spletnih strežnikov skupaj s podatki o dogodkih, kot so podatki iz družbenih medijev.
  • Transakcije letenja temeljijo na kanalu, tj. Dve sporočili se vzdržujeta, eno je za pošiljanje in eno za sprejem.
  • V naboru je možno vodoravno skaliranje.
  • To je zelo prepuščeno toleranten, saj je kontekstualno usmerjanje prisotno v modrcu.

Zaključek - Orodja Hadoop

Tu v tem članku smo spoznali nekaj orodij Hadoop in kako so uporabna v svetu podatkov. Videli smo panj in prašiča, ki se uporablja za poizvedovanje in analizo podatkov, kroženje za premikanje podatkov in črpanje za zaužitje pretočnih podatkov v HDFS.

Priporočeni članki

To je vodnik za Hadoop Tools. Tukaj razpravljamo o različnih orodjih Hadoopa z njihovimi lastnostmi. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Hadoop alternative
  2. Hadoop Database
  3. Funkcije nizov SQL
  4. Kaj so veliki podatki

Kategorija: