Uvod v ekosistem Hadoop

Apache Hadoop je odprtokodni sistem za zanesljivo shranjevanje in obdelavo veliko informacij v številnih računalnikih blaga. Hadoop je bil prvič napisan v prispevku in objavljen oktobra 2013 kot „Google File System“. Doug Cutting, ki je v tistem času delal v Yahooju, je ime predstavil kot Hadoop Ecosystem, ki temelji na imenu njegovega otroškega slona. Če si omislimo glavno jedro Apache Hadoop, potem lahko najprej razmislimo o shranjevalnem delu, ki je znan kot Hadoop Distributed File System (HDFS), in drugič obdelanem delu, ki je znan kot modul za zmanjševanje zemljevidov. Hadoop dejansko razdeli eno ogromno datoteko in jih shrani v več vozlišč v grozdu.

Koncept ekosistema Hadoop

Okvir Apache Hadoop se v glavnem drži pod moduli:

  1. Hadoop Common: vsebuje vse knjižnice in pripomočke, potrebne za uporabo modula Hadoop.
  2. Hadoop porazdeljeni datotečni sistem (HDFS): To je eden od porazdeljenih datotečnih sistemov, ki pomaga shraniti ogromno podatkov v več strojev ali blagovnih strojih. Zagotovite tudi veliko uporabnost v primeru pasovne širine, običajno je zagotavljal zelo veliko pasovno širino v vrsti agregata na grozdu.
  3. Hadoop Preja: Uveden je bil leta 2012. Uvaja se predvsem za upravljanje virov v celotnem sistemu blaga, tudi v grozdu. Na podlagi zmožnosti virov je razdelil ali načrtoval uporabniško aplikacijo, kot je potrebno.
  4. Hadoop MapReduce: V glavnem pomaga obdelati obsežne podatke s pomočjo metodologije za zmanjševanje zemljevidov.

Apache Hadoop vedno pomaga pri zmanjšanju stroškov IT v smislu obdelave in pametnega shranjevanja ogromnih podatkov. Ker je Apache Hadoop odprtokodni program in je strojna oprema pogosto na voljo, nam vedno pomaga pri ustreznem znižanju stroškov za IT.

Programska oprema z odprto kodo + robna strojna oprema = Znižanje stroškov IT

Na primer, če bomo razmišljali o vsakodnevnem prejemanju 942787 datotek in imenikov, ki zahtevajo 4077936 blokov, skupaj 5020723 blokov. Če smo konfigurirali vsaj 1, 46 PB zmogljivosti, potem bo za obdelavo nad obremenitvijo porazdeljeni datotečni sistem porabil 1, 09 PB, kar pomeni skoraj 74, 85% celotne konfigurirane zmogljivosti, medtem ko upoštevamo 178 živih vozlišč in 24 mrtvih vozlišč.

Hadoop ekosistem v glavnem zasnovan za shranjevanje in obdelavo velikih podatkov, ki imajo običajno nekaj ključnih značilnosti, kot so spodaj:

  • Zvezek

Obseg pomeni velikost podatkov, ki so dejansko shranjeni in ustvarjeni. Odvisno od velikosti podatkov, za katero je določeno, da je nabor podatkov velik ali ne.

  • Raznolikost

Raznolikost pomeni naravo, strukturo in vrsto podatkov, ki se uporabljajo.

  • Hitrost

Hitrost pomeni hitrost podatkov, ki so bili shranjeni in ustvarjeni v določenem toku razvojnega procesa.

  • Verodostojnost

Veracity pomeni kakovost zajetih podatkov in pomaga tudi analizi podatkov, da dosežejo želeni cilj.

HDFS je v glavnem namenjen shranjevanju zelo velike količine informacij (terabajtov ali petabajtov) v velikem številu strojev v grozdu. Vedno ohranja nekatere skupne značilnosti, na primer zanesljivost podatkov, deluje na blagajni strojni opremi, z uporabo blokov za shranjevanje datoteke ali dela te datoteke, uporablja model "pisanje enkrat prebranih za mnoge".

HDFS sledi spodaj arhitektura s konceptoma Name Node in Data Node.

Odgovornost imena vozlišča (poveljnik):

- upravlja prostor z imeni datotečnega sistema

- vzdržuje konfiguracijo grozda

- odgovoren za upravljanje podvajanja

Odgovornost Data Node (Slaves):

- Shranjevanje podatkov v lokalnem datotečnem sistemu

- Občasno se s srčnim utripom javljajte na vozlišče imena

Operacija pisanja HDFS:

Hadoop sledi spodnjim korakom za pisanje velike datoteke:

  1. Ustvarite datoteko in posodobite FS sliko, potem ko od katerega koli odjemalca HDFS prejmete eno zahtevo za pisanje datoteke.
  2. Pridobite podatke o lokaciji bloka ali podatkovnih vozlišč podatkov iz imenskega vozlišča.
  3. Paket zapišite v posamezna podatkovna vozlišča vzporedno.
  4. Potrdite izpolnitev ali sprejemanje pisanja paketov in pošiljanje informacij nazaj odjemalcu Hadoop.

HDFS blok za podvajanje bloka:

  1. Odjemalec pridobi ime Datanode iz Namenode, ki bo gostila repliko tega bloka
  2. Odjemalec nato podatkovni blok sproži do prve Datanode
  3. Prva Datanode prejme blok, ga zapiše in prenese v naslednje podatkovno vozlišče v cevovodu
  4. Ko so napisane vse replike, odjemalec preide na naslednji blok v datoteki

Toleranca napak HDFS:

Eno podatkovno vozlišče je nenadoma padlo, v tem primeru pa ima HDFS možnost samodejnega upravljanja tega scenarija. Prvič, vsa imena vozlišča vedno prejmejo en srčni utrip iz vsakega podatkovnega vozlišča, če je nekako izgubila en srčni utrip iz enega podatkovnega vozlišča, če upoštevamo isto podatkovno vozlišče kot navzdol, nemudoma ukrepajte, da takoj ponovite vse bloke na preostalih vozliščih, da bi tako zadostili podvajanju faktor.

Če ime vozlišče zazna eno novo podatkovno vozlišče, ki je na voljo v grozdu, takoj uravnoteži vse bloke, vključno z dodanimi vozlišči podatkov.

Zdaj nekako izgubi ali ni uspelo ime vozlišča, v tem primeru pa tudi rezervno vozlišče z eno FS sliko imenskega vozlišča takoj ponovi vse operacije FS in poimenujete vozlišče imena, kot je potrebno. Toda v tem primeru je potreben ročni poseg in celoten okvir ekosistema Hadoop bo nekajkrat padel, da bi ponovno postavil novo ime vozlišča. V tem primeru je lahko ime vozlišča z eno samo točko, da bi se izognili temu scenariju. Zveza HDFS uvaja več grozdov, ki so nastavljeni na ime vozlišča, in ZooKeeper lahko takoj upravlja eno nadomestno ime vozlišča, kot je potrebno.

Primeri ekosistema Hadoop

Primer ekosistema Hadoop je mogoče pravilno razložiti na spodnji sliki:

Podatki lahko prihajajo iz katerega koli vira, kot so skladišče podatkov, skladišče upravljanih dokumentov, skupne datoteke, običajna baza podatkov RDMS ali oblaki ali zunanji viri. Vsi ti podatki so prišli do HDFS v strukturi, nestrukturirani ali polstrukturirani. HDFS shranjuje vse podatke kot porazdeljen način, kar pomeni, da se v razdelenem sistemu blaga shranjujejo zelo pametno.

Zaključek

Hadoop ekosistem v glavnem zasnovan za shranjevanje in obdelavo ogromnih podatkov, ki naj bi predstavljal katerega koli od dveh dejavnikov med količino, hitrostjo in raznolikostjo. Shranjuje podatke v porazdeljeni sistem obdelave, ki deluje na blagovni strojni opremi. Glede na celoten proces ekosistema Hadoop HDFS distribuira podatkovne bloke, Map Reduce pa nudi programski okvir za branje podatkov iz datoteke, shranjene v HDFS.

Priporočeni članki:

To je vodnik za ekosistem Hadoop. Tu smo razpravljali o osnovnem konceptu Hadoop ekosistema, njegovi arhitekturi, operacijah HDFS, primeri, toleranci napak HDFS itd. Če želite izvedeti več, si oglejte tudi naslednje članke -

  1. Uporaba Hadoopa v resničnem svetu
  2. Hadoop proti Splunk
  3. Kariera v Hadoopu
  4. Hadoop vs SQL Performance

Kategorija: