Orodja Hadoop - Spoznajte različna orodja podjetja Hadoop z njihovimi lastnostmi

Uvod v orodja Hadoop

Orodja Hadoop so okvir, ki se uporablja za obdelavo velike količine podatkov. Ti podatki se razdelijo na gručo in se razdeli računalništvo. Podatki so shranjeni v blokih velikosti 128Mb in za obdelavo in doseganje rezultatske moči se zmanjša Map Map Reduce. Tradicionalno Map in Reduce sta bila napisana na Javi, vendar je bilo težko prestopiti vire, ki delujejo v podatkovnem skladišču, saj s tem niso imeli izkušenj. SQL je dobro znan in je enostaven za uporabo, tako da je z iskanjem načina za pisanje SQL-a kot poizvedbe, ki se pretvori v Map and Reduce, to ustanovil Facebook in kasneje podaril Apache, to orodje je znano kot Hive. Yahoo je pripravil tudi orodje Pig, ki ga ob izvrševanju pretvori v Map Reduce, podobno imamo tudi Sqoop in flume za orodja za gibanje podatkov in vbrizgavanje. HBase je sistem za upravljanje podatkovnih baz.

Značilnosti orodja Hadoop

Panj
Prašič
Sqoop
HBase
Oskrbnik živalskega vrta
Cvetje

Zdaj bomo videli funkcije s kratko razlago.

1. Panj

Apache Pive je ustanovil Facebook in kasneje podaril fundaciji Apache, ki je infrastruktura skladišča podatkov, omogoča lažje pisanje SQL kot poizvedba imenovana HQL ali HiveQL. Ta poizvedba se notranje pretvori v opravila Map Reduce in obdelava se izvede s pomočjo distribuiranega računa Hadoop. Lahko obdeluje podatke, ki so v HDFS, S3 in vse shranjevanje, združljivo s Hadoopom. Zmogljivosti, ki jih nudi Map Reduce, lahko uporabimo vedno, ko v podjetju Hive ugotovimo, da je nekaj težko izvedljivega s pomočjo uporabniško definiranih funkcij. Uporabniku omogoča registracijo UDF-jev in uporabo v opravilih.

Značilnosti panja

Hive lahko obdeluje številne vrste datotek, kot so datoteka zaporedja, ORC datoteka, TextFile itd.
Za hitrejše izvajanje so na voljo particioniranje, združevanje in indeksiranje.
Stisnjene podatke lahko naložite tudi v panj tabele.
Nadzorne ali notranje tabele in zunanje tabele so pomembne lastnosti podjetja Pive.

2. Prašič

Yahoo je razvil prašič Apache, da je dodatno orodje za krepitev Hadoopa omogočil ad hoc način izvajanja zmanjšanja zemljevidov. Pig ima motor, imenovan Pig Engine, ki skripte pretvori v pomanjšanje zemljevida. Pig je skriptni jezik, skripti za Pig so v PigLatinu, tako kot Hive tukaj tudi mi lahko imamo UDF za izboljšanje funkcionalnosti. Naloge v Pig so samodejno optimizirane, zato programerjem ni treba skrbeti za to. Prašič obravnava tako strukturirane kot nestrukturirane podatke.

Značilnosti prašiča

Uporabniki imajo lahko svoje funkcije za posebno vrsto obdelave podatkov.
Kode v Pig je enostavno napisati primerjalno, tudi dolžina kode je manjša.
Sistem lahko samodejno optimizira izvedbo.

3. Sqoop

Sqoop se uporablja za prenos podatkov iz HDFS v RDBMS in obratno. Podatke lahko potegnemo v HDFS iz RDBMS, Pive itd. In jih lahko obdelujemo in izvozimo nazaj v RDBMS. Podatke lahko večkrat pripnemo v tabelo, lahko tudi naredimo Sqoop opravilo in ga izvedemo 'n' številokrat.

Značilnosti Sqoopa

Sqoop lahko v HDFS hkrati uvozi vse tabele.
Vdelamo lahko poizvedbe SQL kot tudi pogoje pri uvozu podatkov.
Podatke lahko uvažamo v panj, če je tabela iz HDFS.
Število preslikav se lahko nadzira, tj. Vzporedno izvedbo lahko nadzirate tako, da določite število preslikav.

4. HBase

Sistem za upravljanje baz podatkov na vrhu HDFS se imenuje HBase. HBase je baza podatkov NoSQL, ki je razvita na vrhu HDFS. HBase ni relacijska podatkovna baza, ne podpira strukturiranih poizvedbenih jezikov. HBase uporablja porazdeljeno obdelavo HDFS. Lahko ima velike mize z milijoni in milijoni plošč.

Značilnosti HBase

HBase zagotavlja razširljivost tako v linearni kot v modularni obliki.
API-je v JAVA je mogoče uporabiti za dostop do strank.
HBase zagotavlja lupino za izvajanje poizvedb.

5. Zookeeper

Apache Zookeeper je storitev centraliziranega vzdrževanja konfiguracije, vodi evidenco informacij, poimenovanja, omogoča tudi porazdeljeno sinhronizacijo in skupinske storitve. Zookeeper je centralizirano skladišče, ki ga distribuirane aplikacije uporabljajo za dajanje in pridobivanje podatkov o njem. Pomaga tudi pri upravljanju vozlišč, tj. Za priključitev ali puščanje vozlišča v grozdu. Omogoča zelo zanesljiv register podatkov, ko je malo vozlišč navzdol.

Značilnosti Zookeeperja

Učinkovitost lahko povečate z razdelitvijo nalog, ki jih dosežete z dodajanjem več strojev.
Skriva kompleksnost distribucije in se predstavlja kot en sam stroj.
Napaka nekaj sistemov ne vpliva na celoten sistem, a pomanjkljivost je, da lahko privede do delne izgube podatkov.
Zagotavlja Atomicity, tj. Transakcija je uspešna ali neuspešna, vendar ni v nepopolnem stanju.

6. Žarnica

Apache Flume je orodje, ki omogoča zaužitje podatkov, ki lahko zbere, združi in prenese ogromno podatkov iz različnih virov v HDFS, HBase itd. Flume je zelo zanesljiv in ga je mogoče konfigurirati. Zasnovan je za zaužitje pretočnih podatkov s spletnega strežnika ali podatkov o dogodkih v HDFS, npr. Lahko zaužije twitter podatke v HDFS. Flume lahko shrani podatke v katero koli od centraliziranih shramb podatkov, kot je HBase / HDFS. Če pride do višje hitrosti ustvarjanja podatkov v primerjavi s hitrostjo zapisovanja podatkov, potem flume deluje kot posrednik in zagotavlja neprekinjen pretok podatkov.

Značilnosti Flume

Lahko zaužije podatke spletnih strežnikov skupaj s podatki o dogodkih, kot so podatki iz družbenih medijev.
Transakcije letenja temeljijo na kanalu, tj. Dve sporočili se vzdržujeta, eno je za pošiljanje in eno za sprejem.
V naboru je možno vodoravno skaliranje.
To je zelo prepuščeno toleranten, saj je kontekstualno usmerjanje prisotno v modrcu.

Zaključek - Orodja Hadoop

Tu v tem članku smo spoznali nekaj orodij Hadoop in kako so uporabna v svetu podatkov. Videli smo panj in prašiča, ki se uporablja za poizvedovanje in analizo podatkov, kroženje za premikanje podatkov in črpanje za zaužitje pretočnih podatkov v HDFS.

Priporočeni članki

To je vodnik za Hadoop Tools. Tukaj razpravljamo o različnih orodjih Hadoopa z njihovimi lastnostmi. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

Hadoop alternative
Hadoop Database
Funkcije nizov SQL
Kaj so veliki podatki

Orodja Hadoop - Spoznajte različna orodja podjetja Hadoop z njihovimi lastnostmi

Kazalo:

Uvod v orodja Hadoop

Značilnosti orodja Hadoop

1. Panj

2. Prašič

3. Sqoop

4. HBase

5. Zookeeper

6. Žarnica

Zaključek - Orodja Hadoop

Priporočeni članki

Vrste digitalnega podpisa - Spoznajte različne vrste digitalnega podpisa

TOP 7 koristnih dejstev strategij digitalnega trženja, ki jih morate vedeti

Digital Ocean proti AWS - Najboljših 6 razlik, ki jih morate vedeti

Neposredni stroški v primerjavi s posrednimi stroški - Najboljših 6 razlik z infografiko

Prednosti neposrednega trženja - Prednosti in slabosti - Vrste

Dividenda v primerjavi s kapitalskimi dobički - edu CBA

Docker arhitektura - Spoznajte predmete in prednosti Dockerja

Dockerjevi ukazi - Osnovni do naprednih ukazov dockerja

Docker alternative - Najboljših 8 možnosti dockerja s prednostmi in slabostmi

Prvih 10 vprašanj in odgovorov o Dockerju (Posodobljeno za leto 2019)

Spark SQL Dataframe - Ustvarjanje podatkovnega okvira z uporabo dveh pomembnih metod

Spark SQL vs Presto - Poiščite 7 koristnih primerjav

Iskrenje - Izčrpen priročnik za iskrenje

Spark Stages - Spoznajte vrste in prednosti iskalnih stopenj

Spark Dataset - Naučite se, kako ustvariti sveženj podatkov z iskricami s primeri?