Kaj je Hadoop Streaming?

Hadoop streaming je pripomoček s Hadoop distribucijo, ki se lahko uporablja za izvajanje programov za analizo velikih podatkov. Za izvajanje tega je več jezikov, kot so Java, Scala, Unix, Perl, Python in številni drugi. Ta pripomoček nam pomaga pri ustvarjanju in izvajanju zemljevida za zmanjšanje opravil, pri čemer je kateri koli izvršljivi ali skript, ki je preslikava in / ali reduktor.

Opredelitev

Gre za distribucijo Hadoop z uporabnostjo. Utility nam pomaga ustvariti in zagnati določena opravila MapReduce z izvršljivim ali skriptom kot preslikavalec in / ali reduktor.

Razumevanje

Obstajajo storitve Java, ki jih ponuja distribucija Hadoop, ki se imenujejo Hadoop streaming. Pomožni program je zapakiran v datoteko JAR. S pomočjo pripomočka lahko ustvarimo in zaženemo opravila MapReduce z izvršljivim skriptom. Poleg tega lahko ustvarimo izvedljive skripte za zagon funkcij preslikav in reduktorjev. Izvršljive skripte se z ukazom pošljejo v pretok Hadoop. Po posredovanju skriptov v pretok Hadoop pripomoček za pretakanje Hadoop ustvari zemljevid in zmanjša opravila ter jih pošlje v gručo. Ta opravila lahko spremljate tudi s to pomočjo.

Kako deluje?

Skript, določen za zemljevid in reduktor, deluje spodaj -

Po popolni inicializaciji skripta preslikava bo sprožil primerek skripta z različnimi ID-ji procesov. Naloga preslikavca med izvajanjem prevzame vhodne vrstice in jih prenese na standardni vhod. Hkrati preslikava zbere izhode iz standardnega izhoda procesa. Vsako vrstico pretvori v par ključ-vrednost. Nabor parov ključ-vrednost se nato zbere kot izhod iz zemljevidnika. Par vrednosti ključa je izbran na podlagi znaka prvega zavihka. Del vrstice do začetnega zavihka je izbran kot ključen, preostali del vrstice pa kot dragocen del. V primeru, da zavihek ni v vrstici, potem je celotna vrstica izbrana kot ključna in za to vrstico ni vrednostnega dela. To je mogoče prilagoditi glede na poslovne potrebe.

Namen uporabe Hadoop Streaminga

Uporablja se za zaužitje podatkov v realnem času, ki se lahko uporablja v različnih aplikacijah v realnem času. Obstajajo različne aplikacije v realnem času, kot so gledanje portfeljev delnic, analiza trga delnic, poročanje o vremenskem poročilu, prometna opozorila, ki se izvajajo s pretokom Hadoop.

Delovanje Hadoop Streaminga

Spodaj je preprost primer, kako deluje pretok Hadoop:

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc

Ukaz vnosa se uporablja za zagotavljanje vhodnega imenika, medtem ko se izhodni ukaz uporablja za izhodni imenik. Ukaz preslikava se uporablja za določitev izvedljivega razreda preslikav, medtem ko ukaz reduktor uporablja za določitev razreda izvršljivega reduktorja.

Prednosti Hadoop Streaminga

Spodaj so prednosti pretoka Hadoop:

1. Razpoložljivost

Za to ni potrebna namestitev in upravljanje dodatne programske opreme. Obstajajo tudi druga orodja, kot je prašič, panj, ki jih je mogoče namestiti.

2. Učenje

Ne potrebuje učenja novih tehnologij. Hadoop pretakanje je mogoče uporabiti z minimalnimi Unix spretnostmi za analizo podatkov.

3. Zmanjšajte čas razvoja

Med razvijanjem aplikacij za pretakanje v Unixu morate zapisati preslikava in reduktor kodo, medtem ko je izvajanje istega dela z aplikacijo Java MapReduce bolj zapleteno in ga je treba najprej sestaviti, nato preizkusiti, nato pakirati, nato izvoziti datoteko JAR in nato zagnati.

4. Hitrejša pretvorba

Za pretvorbo podatkov iz enega formata v drugega s pretokom Hadoop potrebuje zelo malo časa. Uporabljamo ga lahko za pretvorbo podatkov iz besedilne datoteke v zaporedno datoteko in nato spet iz zaporedne datoteke v besedilno datoteko in številne druge. To je mogoče doseči z uporabo vhodne in izhodne oblike v pretoku Hadoop.

5. Testiranje

Vhodne in izhodne podatke lahko hitro preizkusite z uporabo pretoka Hadoop z Unixom ali Shell Scriptom.

6. Zahteva za poslovanje

Za preproste poslovne zahteve, kot so preproste operacije filtriranja in preproste operacije združevanja, lahko to uporabimo pri Unixu.

7. Delovanje

Z uporabo Hadoop pretakanja lahko med delom s pretakanjem podatkov dosežemo boljše delovanje. Obstaja tudi več pomanjkljivosti pretoka Hadoop, ki se jih odpravite z uporabo drugih orodij v paketu Hadoop, kot so Kafka, flume, iskra.

Zakaj potrebujemo Hadoop Streaming?

Pomaga pri analizi podatkov v realnem času, ki je veliko hitrejša z uporabo programa MapReduce, ki se izvaja na več vozliški grozdu. Obstajajo različne tehnologije, kot so iskre Kafka in druge, ki pomagajo v hitrem pretoku Hadoop.

Kako vam bo ta tehnologija pomagala pri karierni rasti?

Dandanes se vsa večja podjetja selijo v Hadoop zaradi njihove analize podatkov in mnoga od njih bodo morda zahtevala analizo podatkov v realnem času. Povpraševanje po uporabi podatkov v realnem času in obdelava iz dneva v dan in ta tehnologija ustvarja veliko prostora za individualno rast kariere.

Zaključek

Ponuja ogromno prednosti za različne obdelave podatkov v realnem času z uporabo pretočnih podatkov.

Priporočeni članki

To je vodnik za Hadoop Streaming. Tukaj razpravljamo o definiciji, pojmu, prednostih in slabostih Hadoop Streaming-a. Obiščite lahko tudi druge naše predlagane članke, če želite izvedeti več -

  1. Kaj je Hadoop grozd?
  2. Kaj je podatkovno rudarjenje?
  3. Kaj je vizualizacija podatkov
  4. Kaj je modeliranje podatkov?
  5. Celoten vodnik za orodja Kafka

Kategorija: