Uvod v Hadoop arhitekturo
Hadoop arhitektura je odprtokodni okvir, ki omogoča enostavno obdelavo velikih nizov podatkov. Pomaga pri ustvarjanju aplikacij, ki obdelujejo ogromno podatkov z večjo hitrostjo. Uporablja koncepte porazdeljenega računanja, kjer se podatki razprostirajo po različnih vozliščih grozda. Aplikacije, ki so narejene s programom Hadoop, uporabljajo računalnike blaga. Ti računalniki so na trgu enostavno dostopni po poceni cenah. Ta rezultat je večja računalniška moč z nizkimi stroški. Vsi podatki v Hadoopu namesto v lokalnem datotečnem sistemu prebivajo na HDFS. HDFS je distribucijski datotečni sistem Hadoop. Ta model temelji na podatkovni lokaciji, kjer se računska logika pošlje vozliščem v grozdu, ki vsebuje podatke. Ta logika ni nič drugega kot logika, ki sestavi program.
Hadoop arhitektura
Osnovna ideja te arhitekture je, da se celotno shranjevanje in obdelava opravi v dveh korakih in na dva načina. Prvi korak je obdelava, ki jo opravi Map znižanje programiranja, drugi korak pa je shranjevanje podatkov, ki se izvajajo v HDFS. Ima arhitekturo master-slave za shranjevanje in obdelavo podatkov. Glavno vozlišče za shranjevanje podatkov v Hadoopu je ime vozlišče. Obstaja tudi glavno vozlišče, ki deluje pri spremljanju in vzporedni obdelavi podatkov z uporabo Hadoop Map Reduce. Podrejeni so drugi stroji v grozdu Hadoop, ki pomagajo pri shranjevanju podatkov in izvajajo tudi zapletene izračune. Vsakemu podrejenemu vozlišču je dodeljen sledilnik opravil, podatkovno vozlišče pa ima sledilnik opravil, ki pomaga pri vodenju procesov in njihovi sinhronizaciji. To vrsto sistema lahko nastavite bodisi v oblaku bodisi v prostoru. Vozlišče Name je ena sama točka napake, če ne deluje v načinu visoke razpoložljivosti. Hadoop arhitektura ima tudi možnost, da vzdržuje vozlišče stand by Name, da sistem zaščiti pred okvarami. Prej so obstajala sekundarna imena vozlišč, ki so delovala kot varnostno kopijo, ko je bilo primarno ime vozlišča navzdol.
FSimage in urejanje dnevnika
FSimage in urejanje dnevnika zagotavljata obstojnost metapodatkov datotečnega sistema, da so na tekočem z vsemi informacijami in imenitnimi vozlišči, shranjujejo metapodatke v dve datoteki. Te datoteke so FSimage in dnevnik za urejanje. Naloga FSimage je ohraniti popoln posnetek datotečnega sistema v danem času. Spremembe, ki se nenehno izvajajo v sistemu, je treba voditi evidenco. Te dodatne spremembe, kot so preimenovanje ali dodajanje podrobnosti datoteki, so shranjene v dnevniku urejanja. Okvir ponuja boljšo možnost, ne pa da vsakič ustvariš nov FSimage, boljša možnost pa je shranjevanje podatkov med novo datoteko za FSimage. FSimage ustvari nov posnetek ob vsaki spremembi, če vozlišče Name ne uspe, lahko povrne prejšnje stanje. Tudi sekundarno ime vozlišča lahko posodobi svojo kopijo, kadar koli se v FSimage spremenijo in urejajo dnevnike. Tako zagotavlja, da čeprav ime vozlišča ni, v prisotnosti sekundarnega imena vozlišča ne bo prišlo do izgube podatkov. Imensko vozlišče ne zahteva, da je treba te slike ponovno naložiti v sekundarno ime vozlišča.
Podvajanje podatkov
HDFS je zasnovan za hitro obdelavo podatkov in zagotavljanje zanesljivih podatkov. Shranjuje podatke v strojih in v velikih grozdih. Vse datoteke so shranjene v nizu blokov. Ti bloki se ponavljajo zaradi napak. Velikost bloka in faktor podvajanja lahko uporabniki določijo in konfigurirajo glede na uporabniške zahteve. Faktor podvajanja je privzeto 3. Koeficient podvajanja lahko določite v času ustvarjanja datoteke in ga lahko kasneje spremenite. Vse odločitve v zvezi s temi replikami sprejme ime vozlišča. Imensko vozlišče ves čas pošilja srčne utripe in blokira poročilo za vsa podatkovna vozlišča v grozdu. Sprejem srčnega utripa pomeni, da podatkovno vozlišče deluje pravilno. Poročilo o blokih določa seznam vseh blokov, ki so prisotni v podatkovnem vozlišču.
Postavitev kopij
Namestitev kopij je v Hadoopu zelo pomembna naloga za zanesljivost in zmogljivost. Vsi različni podatkovni bloki so nameščeni na različnih stojalih. Izvajanje namestitve replike je mogoče izvesti glede na zanesljivost, razpoložljivost in izkoriščenost pasovne širine. Grozd računalnikov se lahko razširi po različnih regalih. Na isti regali lahko namestite največ dve vozlišči. Tretjo kopijo je treba postaviti na drugo stojalo, da se zagotovi večja zanesljivost podatkov. Obe vozlišči na stojalu komunicirata prek različnih stikal. Imensko vozlišče ima ID stojala za vsako podatkovno vozlišče. Toda postavitev vseh vozlišč na različne stojala preprečuje izgubo podatkov in omogoča uporabo pasovne širine iz več stojal. Prav tako zmanjša promet med regali in izboljša zmogljivost. Tudi možnost okvare regala je zelo manjša v primerjavi z možnostjo okvare vozlišča. Zmanjša pasovno širino omrežja, ko se podatki odčitajo iz dveh edinstvenih stojal, ne iz treh.
Znižaj zemljevida
Map Reduce se uporablja za obdelavo podatkov, ki so shranjeni na HDFS. Zapiše razdeljene podatke v porazdeljene aplikacije, kar zagotavlja učinkovito obdelavo velike količine podatkov. Predelujejo na velikih grozdih in zahtevajo blago, ki je zanesljivo in napak. Jedro zmanjšanja zemljevida so lahko tri operacije, kot so preslikava, zbiranje parov in premeščanje nastalih podatkov.
Zaključek - Hadoop arhitektura
Hadoop je odprtokodni okvir, ki pomaga pri odpovedi napak. Lahko shrani velike količine podatkov in pomaga pri shranjevanju zanesljivih podatkov. Dva dela shranjevanja podatkov v HDFS in njihove obdelave s pomočjo zemljevida zmanjšata pomoč pri pravilnem in učinkovitem delovanju. Ima arhitekturo, ki pomaga pri upravljanju vseh blokov podatkov, prav tako pa ima najnovejšo kopijo tako, da jo shrani v FSimage in ureja dnevnike. Faktor podvajanja pomaga tudi pri kopiranju podatkov in vračanju nazaj, kadar pride do napake. HDFS tudi odstranjene datoteke premakne v mapo za smeti, da optimalno izkoristi prostor.
Priporočeni članki
To je vodnik Hadoop arhitekture. Tu smo razpravljali o arhitekturi, zmanjšanju zemljevida, umestitvi replik, podvajanju podatkov. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -
- Postanite Hadoop razvijalec
- Uvod v Android
- Kaj je Tableau? | Pregled
- Kaj je MapReduce v Hadoopu?