Pregled namestitve Hadoop

Naslednji članek Install Hadoop ponuja oris najpogostejših Hadoop-ovih okvirnih modulov in postopno namestitev za Hadoop. Apache Hadoop je zbirka programske opreme, ki omogoča obdelavo velikih nizov podatkov in porazdeljeno hrambo po grozdu različnih vrst računalniškega sistema. Trenutno Hadoop ostaja najbolj razširjena analitična platforma za velike podatke ("Sanchita Lobo, avtor na spletnem mestu Training Training Blog", drugo).

Hadoop okvir

Okvir Apache Hadoop je sestavljen iz naslednjih ključnih modulov.

  • Apache Hadoop pogosti.
  • Apache Hadoop porazdeljeni datotečni sistem (HDFS).
  • Apache Hadoop MapReduce
  • Apache Hadoop Preja (še en upravnik virov).

Apache Hadoop pogosti

Apache Hadoop Common modul sestavljajo knjižnice v skupni rabi, ki se porabijo v vseh drugih modulih, vključno z upravljanjem ključev, splošnimi paketi V / I, knjižnicami za zbiranje metric in pripomočki za register, varnost in pretakanje.

HDFS

HDFS temelji na Googlovem datotečnem sistemu in je zasnovan tako, da deluje na poceni strojni opremi. HDFS je toleranten napak in je zasnovan za aplikacije z velikimi množicami podatkov.

MapReduce

MapReduce je inherentni vzporedni programski model za obdelavo podatkov in Hadoop lahko zažene programe MapReduce, napisane v različnih jezikih, kot je Java. MapReduce deluje tako, da procesiranje razdeli na fazo zemljevida in zmanjša fazo.

Apache Hadoop PREJ

Apache Hadoop YARN je osnovna komponenta in je upravljanje z viri in tehnologija razporejanja delovnih mest v Hadoop distribuiranem okviru obdelave.

V tem članku bomo razpravljali o namestitvi in ​​konfiguraciji Hadoop 2.7.4 na enem samem vozlišču in preizkusili konfiguracijo, tako da zaženete program MapReduce z imenom wordcount za štetje števila besed v datoteki. Nadalje bomo pogledali nekaj pomembnih ukazov datotečnega sistema Hadoop.

Koraki za namestitev Hadoopa

Sledi povzetek nalog, ki so vključene v konfiguracijo Apache Hadoop.

1. naloga: Prva naloga namestitve Hadoop je vključevala nastavitev predloge navideznega stroja, ki je bila konfigurirana s Cent OS7. Paketi, kot sta Java SDK 1.8 in Runtime Systems, potrebni za zagon Hadoop-a, so bili preneseni in spremenjena okoljska spremenljivka Java za Hadoop je bila urejena z urejanjem bash_rc.

2. naloga: Paket Hadoop Release 2.7.4 je bil prenesen s spletnega mesta apache in ekstrahiran v mapi opt. Ki so ga nato zaradi enostavnega dostopa preimenovali v Hadoop.

3. naloga: Ko izvlečete pakete Hadoop, je naslednji korak vključil konfiguracijo spremenljivke okolja za uporabnika Hadoop-a, čemur je sledila konfiguracija datotek XML vozlišča Hadoop. V tem koraku je bil NameNode konfiguriran znotraj core-site.xml, DataNode pa znotraj hdfs-site.xml. Upravljavec virov in upravitelj vozlišč sta bila konfigurirana znotraj preje-site.xml.

4. naloga: Požarni zid je bil onemogočen, da bi zagnali YARN in DFS. Ukaz JPS je bil uporabljen za preverjanje, ali ustrezni demoni delujejo v ozadju. Številka vrat za dostop do Hadoopa je bila konfigurirana za http: // localhost: 50070 /

5. naloga: Naslednjih nekaj korakov smo uporabili za preverjanje in testiranje Hadoopa. Za to smo v vhodnem imeniku programa WordCount ustvarili začasno preskusno datoteko. Program za zmanjšanje zemljevidov Hadoop-MapReduce-example2.7.4.jar je bil uporabljen za štetje števila besed v datoteki. Rezultate smo ovrednotili na lokalni lokaciji in analizirali dnevnike oddane vloge. Vse oddane aplikacije MapReduce si lahko ogledate na spletnem vmesniku, privzeta številka vrat je 8088.

6. naloga: V končni nalogi bomo predstavili nekaj osnovnih ukazov datotečnega sistema Hadoop in preverili njihovo uporabo. Videli bomo, kako je mogoče ustvariti imenik v datotečnem sistemu Hadoop, prikazati bomo vsebino imenika in njegovo velikost v bajtih. Nadalje bomo videli, kako izbrisati določen imenik in datoteko.

Rezultati v namestitvi Hadoop

V nadaljevanju so prikazani rezultati vsake od zgornjih nalog:

Rezultat naloge 1

Za delovanje Apache Hadoop je bil konfiguriran nov virtualni stroj s sliko cenOS7. Slika 1 prikazuje, kako je bila slika CenOS 7 konfigurirana v navideznem stroju. Slika 1.2 prikazuje konfiguracijo spremenljivke okolja JAVA znotraj .bash_rc.

Slika 1: Konfiguracija navideznega stroja

Slika 1.2: Konfiguracija spremenljivke okolja Java

Rezultat naloge 2

Slika 2 prikazuje nalogo, ki je bila izvedena, da izvlečete paket Hadoop 2.7.4, da izberete mapo.

Slika 2: Ekstrakcija paketa Hadoop 2.7.4

Rezultat naloge 3

Slika 3 prikazuje konfiguracijo spremenljivke okolja za uporabnika Hadoop, slike 3.1 do 3.4 pa prikazuje konfiguracijo za datoteke XML, potrebne za konfiguracijo Hadoop.

Slika 3: Konfiguriranje spremenljivke okolja za uporabnika Hadoop-a

Slika 3.1: Konfiguracija core-site.xml

Slika 3.2: Konfiguracija hdfs-site.xml

Slika 3.3: Konfiguracija datoteke mapred-site.xml

Slika 3.4: Konfiguracija datoteke preje-site.xml

Rezultat naloge 4

Slika 4 prikazuje uporabo ukaza jps za preverjanje, ali se ustrezni demoni izvajajo v ozadju, naslednja slika pa prikazuje spletni uporabniški vmesnik Hadoop.

Slika 4: ukaz jps za preverjanje izvajanja demonov.

Slika 4.1: Dostop do spletnega vmesnika Hadoop na pristanišču http://hadoop1.example.comwhat0070/

Rezultat naloge 5

Slika 5 prikazuje rezultat za program MapReduce, imenovan wordcount, ki šteje število besed v datoteki. Naslednji par slik prikazuje spletni uporabniški vmesnik upravitelja virov YARN za poslano nalogo.

Slika 5: Rezultati programa MapReduce

Slika 5.1: Oddana aplikacija za zmanjšanje zemljevida.

Slika 5.2: Dnevniki za poslano aplikacijo MapReduce.

Rezultat naloge 6

Slika 6 prikazuje, kako ustvariti imenik v datotečnem sistemu Hadoop in izvesti seznam imenika hdfs.

Slika 6: Ustvarjanje imenika v datotečnem sistemu Hadoop

Na sliki 6.1 je prikazano, kako vstaviti datoteko v sistem distribucije datotek Hadoop, slika 6.2 pa ustvari ustvarjeno datoteko v imeniku dirB.

Slika 6.1: Ustvarjanje datoteke v HDFS.

Slika 6.2: Nova datoteka je bila ustvarjena.

Naslednjih nekaj slik prikazuje, kako seznam vsebin določenih imenikov:

Slika 6.3: Vsebina dirA

Slika 6.4: Vsebina dirB

Naslednja slika prikazuje, kako je mogoče prikazati velikost datotek in imenikov:

Slika 6.5: Prikaz velikosti datoteke in imenika.

Brisanje imenika ali datoteke lahko enostavno izvedete z ukazom -rm.

Slika 6.6: Brisanje datoteke.

Zaključek

Big Data je igral zelo pomembno vlogo pri oblikovanju današnjega svetovnega trga. Hadoop ogrodje olajša življenje analitiku med delom na velikih zbirkah podatkov. Konfiguracija Apache Hadoop je bila precej preprosta, spletni uporabniški vmesnik pa je uporabniku omogočil več možnosti za nastavitev in upravljanje aplikacije. Hadoop se v organizacijah množično uporablja za shranjevanje podatkov, analitiko strojnega učenja in varnostno kopiranje podatkov. Upravljanje velike količine podatkov je bilo zaradi prirodovanja Hadoop in MapReduce precej priročno. Razvoj Hadoopa je bil v primerjavi z relacijskimi bazami podatkov precej osupljiv, saj nimajo možnosti za nastavitev in zmogljivost. Apache Hadoop je uporabniku prijazna in poceni rešitev za učinkovito upravljanje in shranjevanje velikih podatkov. HDFS prav tako veliko pomaga pri shranjevanju podatkov.

Priporočeni članki

To je vodnik za namestitev Hadoop-a. Tukaj razpravljamo o uvodu v namestitev Hadoop, korak za korakom namestitev Hadoop, skupaj z rezultati namestitve Hadoop. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Uvod v Hadoop Streaming
  2. Kaj je Hadoop grozd in kako deluje?
  3. Ekosistem Apache Hadoop in njegove komponente
  4. Kaj so Hadoop alternative?

Kategorija: