HBase proti HDFS - Najboljše 4 primerjave HBase s HDFS - Infographics

Razlika med HBase in HDFS

V članku HBase vs HDFS se količina podatkov vsak dan povečuje in za organizacije je najpomembnejše, da shranijo in obdelujejo to ogromno količino podatkov. HBase, pa tudi HDFS, so eden od pomembnih sestavnih delov ekosistema Hadoop, ki pomagajo pri shranjevanju in obdelavi ogromnih podatkovnih nizov. Podatki so morda strukturirani, polstrukturirani ali nestrukturirani, vendar jih je mogoče dobro obdelati s HDFS in HBase. HDFS pomeni Hudoop Distributed File System, ki upravlja shranjevanje podatkov v omrežju strojev in obdelavo ogromnih podatkovnih nizov s pomočjo MapReduce. HDFS je primeren za shranjevanje velikih datotek s podatki, ki imajo vzorec pretočnega dostopa, tj. Zapisati podatke v datoteke in prebrati tolikokrat, kolikor je potrebno. V Hadoopu je HBase baza podatkov NoSQL, ki deluje na vrhu HDFS. HBase podatke shrani v stolpce usmerjeno obliko in je znana kot Hadoop baza podatkov. HBase zagotavlja dosledno branje in zapisovanje v realnem času in horizontalno razširljivost.

Primerjava med glavo in HBase proti HDFS (Infographics)

Spodaj je zgornjih 4 primerjav med HBase in HDFS:

Ključne razlike med HBase in HDFS

Pogovorimo se o zgornji primerjavi med HBase in HDFS:

HDFS je zasnovan posebej in najbolj ustreza za serijsko obdelavo. Toda ko gre za analizo v realnem času, HDFS ni primeren za takšne primere. Medtem ko HBase ni primeren za izvajanje paketne obdelave, vendar obravnava velike nabore podatkov za izvajanje branja / pisanja podatkov v realnem času.
HDFS je primeren za pisanje datotek enkrat in branje večkrat. Ker je HBase primeren za pisanje in branje podatkov naključno, ki se shrani v HDFS.
HDFS zagotavlja visoke latencijske operacije za velike nabore podatkov, medtem ko ima HBase majhno zakasnitev za majhne naloge podatkov v velikih nizih podatkov.
HDFS shranjuje velike nabore podatkov v porazdeljenem okolju, tako da datoteke razdeli na bloke in uporablja MapReduce za obdelavo ogromnih nizov podatkov. Medtem ko HBase shranjuje podatke v bazo, usmerjeno v stolpce, kjer so stolpci shranjeni skupaj, tako da branje v realnem času postane hitrejše.
Naloge MapReduce se izvajajo za splošno dostop do HDFS. Do HBase je mogoče dostopati preko ukazov Thrift, Avro, REST API ali lupine.

Primerjalna tabela HBase proti HDFS

Spodnja tabela povzema primerjave med HBase in HDFS:

HBase	HDFS
Gre za NoSQL (Not Only SQL), stolpce usmerjeno, porazdeljeno bazo podatkov, ki je zgrajena na vrhu HDFS. Uporablja se, kadar je v realnem času zapisano in branje za naključni dostop do velikih nizov podatkov.	Podpira paketno obdelavo, kjer so podatki shranjeni kot neodvisne enote, imenovane bloki. Datoteke so razdeljene v različne bloke in podatki se shranijo v njih. Najmanjša velikost bloka v HDFS je privzeto 128 MB (v Hadoop 2.x).
HBase gosti redko poseljene, vendar velike mize. Tabela v HBase je sestavljena iz vrstic, vrstice so razvrščene v družine stolpcev. Družina stolpcev je sestavljena iz stolpcev. Kot del opredelitve sheme je treba določiti družine stolpcev tabele, vendar lahko po potrebi dodate novo družino stolpcev.	Grozd HDFS ima dve vrsti vozlišč za shranjevanje podatkov z uporabo NameNodes in DataNodes. NameNodes so glavna vozlišča, ki hranijo metapodatke, medtem ko so DataNodes podrejena vozlišča, ki shranjujejo bloke podatkov (datoteke, razdeljene na bloke).
Tabele v HBase so vodoravno razdeljene na Regions in vsako območje je sestavljeno iz podmnožice vrstic tabele. Na začetku je tabela sestavljena iz ene regije. Ko pa regija raste, sčasoma preseže nastavljiv prag in se nato razdeli na več regij približno enake velikosti. S pomočjo programa Zookeeper, ki zagotavlja informacije o konfiguraciji, porazdeljeno sinhronizacijo, odjemalec komunicira s strežniki regije.	NameNode je edina točka napake, saj brez metapodatkov datotečni sistem ne bo deloval. Torej mora imeti stroj z imenom NameNode visoko razpoložljivost. Obdelava podatkov poteka prek MapReduce. V Hadoopu 1.x sta bila za sledenje obdelavi opravil Job Tracker in Task Tracker. Toda v Hadoopu 2.x se to izvede prek sistema YARN, kjer ravnatelj virov in načrtovalec storita isto.
HBase ima podoben model podatkov kot Googlova velika tabela, ki omogoča zelo hiter naključni dostop do ogromnih nizov podatkov. Ima nizko zamudo pri dostopu do posameznih vrstic na milijardo zapisov, interno pa uporablja Hash tabele, za velike tabele pa hitro iskanje.	HDFS najbolje deluje pri zelo velikih datotekah, ki so lahko velike na stotine terabajtov ali petabajtov, vendar delo z veliko majhnimi datotekami ni priporočljivo v HDFS, kot pri več datotekah, nameNode pa potrebuje več pomnilnika za shranjevanje metapodatkov. Aplikacija, ki zahteva nizke zamude pri dostopu do podatkov, ne deluje dobro s HDFS. Tudi pri HDFS se zapisovanje izvede samo na prilogo in poljubne spremembe datotek niso možne.

Zaključek

V HDFS se datoteke razdelijo na bloke in bloki učinkovito izkoristijo preostali prostor po tem, ko je datoteka shranjena v njej. Tudi pri HDFS dobimo bonus odpovedovalnih sistemov, kjer omogoča podvajanje, da ne shranjujemo datotek, če pride do motenj v omrežju. Tudi z uporabo blagovne strojne opreme dobimo cenejše stroške za robustni sistem. HBase kot baza podatkov ponuja številne prednosti, ki jih tradicionalni RDBMS ne more. Pri HBase ni fiksne sheme, saj moramo definirati le družine stolpcev. Prav tako je HBase dober za polstrukturirane podatke. V okolju Hadoop, kjer se podatki obdelujejo zaporedno in v serijah, daje HBase prednost branje in zapisovanje v realnem času, tako da ni treba iskati celotnega nabora podatkov niti za en sam zapis. Tako HDFS kot HBase rešujeta številna vprašanja, povezana s shranjevanjem in obdelavo ogromne količine podatkov. Vendar je treba analizirati zahtevo po trdnem, a učinkovitem sistemu.

Priporočeni članki

To je vodnik za največjo razliko med HBase in HDFS. Tukaj razpravljamo tudi o ključnih razlikah HBase vs HDFS z infografiko in primerjalno tabelo. Za več informacij si lahko ogledate tudi naslednje članke -