Razlika med HADOOP in RDBMS
Hadoop programski okvir je zelo dobro strukturiran polstrukturiran in nestrukturiran podatkov. To podpira tudi različne oblike podatkov v realnem času, kot so XML, JSON in besedilne datoteke ravnih datotek. RDBMS deluje učinkovito, kadar obstaja tok odnosa med subjekti, ki je popolnoma definiran, zato lahko shema ali struktura baze podatkov raste in ne upravlja drugače. tj. RDBMS dobro sodeluje s strukturiranimi podatki. Hadoop bo dobra izbira v okoljih, ko bodo potrebe po veliki obdelavi podatkov, v katerih podatki, ki se obdelujejo, nimajo zanesljivih razmerij.
Kaj je Hadoop?
Hadoop je v osnovi programski program z odprto kodo programske opreme, ki omogoča porazdeljeno shranjevanje in obdelavo ogromne količine podatkov, tj. Big Data. Gre za sistem grozdov, ki deluje kot Master-Slave arhitektura. Zato lahko s tako arhitekturo vzporedno shranjujemo in obdelujemo velike podatke. Različne vrste podatkov se lahko analizirajo, strukturirajo (tabele), nestrukturirani (dnevniki, telo e-pošte, besedilo bloga) in polstrukturirani (metapodatki o medijskih datotekah, XML, HTML).
Komponente Hadoop-a
- HDFS: Hadoop porazdeljeni datotečni sistem. Google je objavil svoj dokument GFS in na podlagi tega je bil razvit HDFS. Navaja, da bodo datoteke razdeljene na bloke in shranjene v vozliščih nad porazdeljeno arhitekturo. Doug Cutting in Yahoo! je vzvratno oblikoval model GFS in zgradil vzporedni Hadoop Distributed File System (HDFS)
- Preja: Za načrtovanje opravil in upravljanje grozda se uporablja še en pogajalec virov. Predstavljena je bila v Hadoopu 2.
- Zmanjšanje zemljevida: to je okvir, ki programom Java pomaga pri vzporednem računanju podatkov s parom ključ-vrednost. Zemljevid sprejme vhodne podatke in jih pretvori v podatkovni niz, ki ga je mogoče izračunati v paru vrednosti ključa. Izhod Map se porabi z zmanjšanjem opravil in nato zmanjšanje reduktorja daje želeni rezultat.
- Hadoop Common: Te Java knjižnice se uporabljajo za zagon Hadoop in jih uporabljajo drugi moduli Hadoop.
Kaj je RDBMS?
RDBMS pomeni sistem upravljanja relacijskih baz podatkov. Gre za sistem baz podatkov, ki temelji na relacijskem modelu, ki ga je določil Edgar F. Codd leta 1970. Programska oprema za upravljanje baz podatkov, kot so Oracle strežnik, My SQL in IBM DB2, temelji na sistemu upravljanja relacijskih baz podatkov.
Podatki, predstavljeni v RDBMS, so v obliki vrstic ali upornikov. Ta tabela je v bistvu zbirka povezanih podatkovnih predmetov in je sestavljena iz stolpcev in vrstic. Normalizacija ima pri RDBMS ključno vlogo. Vsebuje skupino tabel, vsaka tabela vsebuje primarni ključ.
Sestavni deli RDBMS
Mize
V RDBMS je tabela zapis, ki je shranjen kot navpično in vodoravno mrežno obliko. Sestavljen je iz niza polj, kot so ime, naslov in produkt podatkov.
Vrstice
Vrstice v vsaki tabeli predstavljajo vodoravne vrednosti.
Stolpci
Stolpci v tabeli so shranjeni vodoravno, vsak stolpec predstavlja polje podatkov.
Ključi
So identifikacijske oznake za vsako vrstico podatkov.
Hadoop in RDBMS imata različne koncepte za shranjevanje, obdelavo in pridobivanje podatkov / informacij. Hadoop je nov na trgu, vendar RDBMS znaša cca. 50 let. S časom podatki rastejo v eksponentni krivulji, pa tudi po naraščajočih potrebah po analizi podatkov in poročanju.
Shranjevanje in obdelava s to ogromno količino podatkov v racionalnem času postane v trenutnih panogah ključnega pomena. RDBMS je bolj primeren za relacijske podatke, saj deluje na tabelah. Glavna značilnost relacijske baze podatkov vključuje možnost uporabe tabel za shranjevanje podatkov, hkrati pa ohranja in uveljavlja določena podatkovna razmerja.
Spodaj je Infographics med HADOOP proti RDBMS
Ključna razlika med HADOOP in RDBMS
RDBMS dobro deluje s strukturiranimi podatki. Hadoop bo dobra izbira v okoljih, ko bodo potrebe po veliki obdelavi podatkov, v katerih podatki, ki se obdelujejo, nimajo zanesljivih razmerij. Ko je velikost podatkov prevelika za kompleksno obdelavo in shranjevanje ali ni enostavno določiti razmerij med podatki, je pridobljeno informacijo težko shraniti v RDBMS s skladnim odnosom. Hadoop programski okvir je zelo dobro strukturiran polstrukturiran in nestrukturiran podatkov. Tehnologija baz podatkov RDBMS je zelo preverjena, dosledna, dozorela in zelo podprta s strani najboljših svetovnih podjetij. Dobro sodeluje z opisi podatkov, kot so tipi podatkov, razmerja med podatki, omejitve itd. Torej je to primerneje za spletno obdelavo transakcij (OLTP).
Kakšna bo prihodnost RDBMS v primerjavi z Bigdata in Hadoop? Ali menite, da bo RDBMS kmalu ukinjena?
"Trenutno med RDBMS in Hadoopom ni nobene zveze - dopolnjujeta se. NE gre za iztrganje in nadomeščanje: ne bomo se znebili RDBMS ali MPP, temveč bomo za pravo delo uporabili pravo orodje - in to bo zelo vplivalo na ceno. "- Alisdair Anderson je dejal na vrhu v Hadoopu .
Primerjava med proizvajalci HADOOP in RDBMS
Značilnost | RDBMS | Hadoop |
Raznolikost podatkov | V glavnem za strukturirane podatke. | Uporablja se za strukturirane, polstrukturirane in nestrukturirane podatke |
Shranjevanje podatkov | Podatki o povprečni velikosti (GBS) | Uporaba za velik nabor podatkov (Tbs in Pbs) |
Poizvedovanje | Jezik SQL | HQL (jezik poizvedbe panj) |
Shema | Obvezno pri pisanju (statična shema) | Obvezno pri branju (dinamična shema) |
Hitrost | Branje je hitro | Tako bere kot piše hitro |
Cena | Licenca | prost |
Uporabite Case | OLTP (spletna obdelava transakcij) | Analytics (avdio, video, dnevniki itd.), Odkrivanje podatkov |
Podatkovni predmeti | Deluje na relacijskih tabelah | Deluje na ključu / vrednosti |
Prepustnost | Nizka | Visoka |
Prilagodljivost | Navpično | Vodoravni |
Profil strojne opreme | High-End strežniki | Blago / uporabna strojna oprema |
Celovitost | Visoka (ACID) | Nizka |
Zaključek - HADOOP proti RDBMS
Z zgornjo primerjavo smo ugotovili, da je HADOOP najboljša tehnika za upravljanje z Big Data v primerjavi s tehnologijo RDBMS. Iz dneva v dan se povečani podatki povečujejo in zato boljši način ravnanja s tako ogromno količino podatkov postaja naporna naloga. Analiza in shranjevanje Big Data sta bolj primerna le s pomočjo ekološkega sistema Hadoop kot tradicionalni RDBMS. Hadoop je obsežen, odprtokodni programski okvir, namenjen razširljivemu, porazdeljenemu in podatkovno intenzivnemu računalništvu. Ta okvir razčleni velike podatke na manjše paralelizacijske nabore podatkov in ročaje z razporejanjem, vsak del preslika na vmesno vrednost, odporen na napake, zanesljiv in podpira tisoče vozlišč in petabajtov podatkov, ki se trenutno uporabljajo v okolju za razvoj, proizvodnjo in testiranje ter izvajanje opcije.
Priporočeni članki:
- Razlike med vozliščem JS in Java
- Ugotovite razlike Java vs Node JS
- Kako razbiti Hadoopov razvijalski intervju?
- Hadoop proti Apache Spark - zanimive stvari, ki jih morate vedeti
- Zakaj je inovacija najbolj kritičen vidik velikih podatkov?
- Želite vedeti o Hadoop vs Spark