Uvod v Hadoop alternative

Apache Hadoop je pošastni okvir, ki uporablja več drugih komponent, kot so HDFS, Hive, Spark, YARN in Zookeeper. Uporablja se za obdelavo in analizo podatkov, pridobljenih iz notranjih ali zunanjih virov. Ta lahko obsega od več strojev ali strežnikov do tisočev. Obstaja veliko vgrajenih knjižničnih funkcij, ki lahko zaznajo in odpravijo okvare.

Komponente Hadoop-a

1) Hadoop porazdeljeni datotečni sistem (HDFS):

To je hranilnik podatkov v Hadoopu. Deluje po načelu porazdeljenih podatkov, kjer se ogromni nizi podatkov razdelijo na majhne dele in jih shranijo na več strojev v gruči.

2) MapReduce:

To je programski model za izvajanje vzporednih analiz podatkov, ki se nahajajo v različnih vozliščih grozda.

3) Panj:

Odprtokodni okvir, ki se uporablja za poizvedovanje po strukturiranih podatkih z uporabo jezika Hive-Query. Funkcija indeksiranja se uporablja za pospešitev postopka poizvedovanja.

4) Ambari:

Platforma za spremljanje zdravja grozda in samodejno delovanje. Ima preprost spletni uporabniški vmesnik in ga je mogoče enostavno namestiti in konfigurirati.

Seznam alternativ Hadoop

Spodaj so različne Hadoop alternative, ki so naslednje:

Serijska obdelava

Tu obdelava poteka le na arhivskih podatkih. Na primer, finančne revizije in popis so analiza, opravljena na starih podatkih, da se zagotovi boljša napoved prihodnjih rezultatov. Ti podatki lahko vsebujejo milijarde vrstic in stolpcev. Paketna obdelava je najprimernejša za veliko obdelavo podatkov brez potrebe po analizi v realnem času.

Obdelava v realnem času

Znan je tudi kot Stream-Processing. Podatki se občasno obdelujejo, ko so ustvarjeni, da bi zagotovili hiter vpogled v verjetne rezultate. Zaznavanje potresa in delniške trge so najboljši primeri, ko je analiza v realnem času nujna.

Apache iskrica

Spark je okvir, ki se skupaj s Hadoopom uporablja za obdelavo paketov ali podatkov v realnem času na strojih v gručah. Uporablja se lahko tudi kot samostojno, pridobivanje in shranjevanje podatkov na drugih strežnikih brez uporabe HDFS. Je odprtokodni izdelek. Ponuja API-je, ki so napisani z uporabo SCALA, R ali Python, ki podpira splošno obdelavo. Za obdelavo strukturiranih podatkov se lahko uporablja Spark-SQL. Spark Streaming izvaja prepotrebno analitiko v realnem času. Spark ponuja podporo strojnemu učenju s pomočjo MLIB. Na koncu je mogoče obdelane podatke videti z uporabo Graphixa.

Najbolj opazna funkcija Spark je obdelava v pomnilniku. Celotna obdelava podatkov poteka v pomnilniku in ne na disku. Ta metoda prihrani čas branja in zapisovanja vhoda na disk in izhoda iz njega. Iskra je hitro strela in je skoraj 100 krat hitrejša od obdelave s Hadoopom. Celotna funkcija je definirana in predložena v kontekst iskre. Šele takrat se obdelava začne iz nič. Ta metoda je znana kot Lazy-Execution. Kafka, Flume se uporabljajo kot vhodi za pretakanje podatkov. Spark lahko za analizo uporabi strukturirane ali nestrukturirane podatke. Podatkovni tokovi so kup podatkov za določen časovni interval v Spark Streamingu. Pretvorijo jih v serije in jih predložijo Spark Engine v predelavo. Strukturirani podatki se pretvorijo v okvirje podatkov, preden se uporabi Spark-SQL za nadaljnjo analizo.

Apache Storm

Apache Storm je tudi ena izmed alternativ Hadoop, ki je najbolj primerna za porazdeljeno analitiko v realnem času. Nastavitev je enostavna, uporabniku prijazna in ne povzroča izgube podatkov. Nevihta ima zelo veliko procesno moč in zagotavlja nizko zamudo (običajno v nekaj sekundah) v primerjavi s Hadoopom.

Podrobneje si bomo ogledali potek dela Storm:

  • Topologija nevihte (podobno kot DAG, vendar fizični načrt izvajanja) se predloži Nimbusu (glavno vozlišče).
  • Naloge in vrstni red njihovega izvajanja se predložijo Nimbusu.
  • Nimbus enakomerno porazdeli razpoložljive naloge nadzornikom (izlivi), postopek pa opravijo Delavska vozlišča (vijaki).
  • Zdravje izlivov in vijakov nenehno spremljamo s srčnimi utripi. Ko umre nadzornik, Nimbus dodeli nalogo drugemu vozlišču.
  • Če Nimbus umre, ga samodejno ponovno zaženejo orodja za spremljanje. Medtem nadzorniki nadaljujejo z izvajanjem svojih nalog, ki so bile dodeljene prej.
  • Ko se Nimbus znova zažene, še naprej deluje tam, kjer se je ustavil. Zato ni izgube podatkov in vsak podatek vsaj enkrat preide skozi topologijo.
  • Topologija še naprej deluje, razen dokler se Nimbus ne ukine ali prisilno zaustavi.
  • Storm uporablja Zookeeper za spremljanje Nimbusa in drugih nadzornih vozlišč.

Velika poizvedba

Baze podatkov se uporabljajo za transakcijsko obdelavo. Vodje ustvarjajo poročila in analizirajo podatke iz različnih baz podatkov. Skladišča podatkov so bila uvedena za pridobivanje podatkov iz več baz podatkov po vsej organizaciji. Google je razvil veliko poizvedbo, ki je skladišče podatkov, ki ga upravlja sam. Za ravnanje z zelo zapletenimi poizvedbami bodo morda potrebni zelo zmogljivi strežniki in Node stroji, ki lahko stanejo ogromno. Postavitev infrastrukture lahko traja do nekaj tednov. Ko je najvišji prag dosežen, ga je treba povečati. Če želite odpraviti te težave, Big poizvedba zagotavlja shranjevanje v obliki Googlovega oblaka. Delovna vozlišča se po potrebi merijo do velikosti podatkovnega centra, da v nekaj sekundah opravijo kompleksno poizvedbo. Plačate za tisto, kar uporabljate, tj. Poizvedbo. Google skrbi za vire, njihovo vzdrževanje in varnost. Izvajanje poizvedb v običajnih bazah podatkov lahko traja od minut do ure. Velika poizvedba obdela podatke veliko hitreje in je primerna predvsem za pretakanje podatkov, kot sta spletna igra in internet stvari (IoT). Hitrost obdelave je tako visoka kot milijarde vrstic v sekundi.

Presto

Poizvedbo Presto lahko uporabite za združevanje podatkov iz različnih virov po vsej organizaciji in njihovo analizo. Podatki so lahko v Pive, RDBMS ali Cassandri. Presto je najbolj primeren za analitike, ki pričakujejo celotno poizvedeno poročilo v nekaj minutah. Arhitektura je analogna klasičnemu sistemu za upravljanje baz podatkov z uporabo več vozlišč v grozdu. Razvil ga je Facebook za izvajanje analiz in iskanje vpogledov iz njihovih notranjih podatkov, vključno s shrambo podatkov 300PB. Za pregledovanje petabajta na dan se izvede več kot 30.000 poizvedb. Tudi druge vodilne družbe, kot sta Airbnb in Dropbox, uporabljajo Presto.

Priporočeni članek

To je vodnik za Hadoop alternative. Tukaj razpravljamo o komponentah Hadoop, paketne obdelave in sprotne obdelave Hadoop alternativ. Če želite izvedeti več, si oglejte tudi naslednje članke:

  1. Hadoop Administrator Jobs
  2. Hadoop vs SQL Performance
  3. Kariera v Hadoopu
  4. Hadoop proti Spark
  5. Hadoop administrator | Spretnosti in poklicna pot

Kategorija: