Razlike med Data Warehouse in Hadoop
V vsakem desetletju IT industrija doživi pomembno novost, ki pretresa celotno IT industrijo. Apache Hadoop je v zadnjih letih storil isto in z dovajanjem podatkovnih centrov z novo infrastrukturo
Ko je programer Hadoop dodal moč vzporedne obdelave tako eksponentno naraščanje, njegov ekosistem pa se širi tako v globino kot v širino, se je naravno vprašati, ali bo Hadoop zamenjal tradicionalno Data Warehouse.
Poglejmo, kaj je Alasdair Anderson (izvršni podpredsednik Nordee) povedal na vrhu v Hadoopu o tej vroči temi v mestu.
"Trenutno med EDW in Hadoopom ni nobene zveze - dopolnila se bosta. NE gre za kopičenje in nadomeščanje: RDBMS ali MPP se ne bomo znebili, temveč bomo za pravo delo uporabili pravo orodje - in to bo zelo vplivalo na ceno. ”
Kadar koli se začne ta zanimiva razprava, nam prihaja na vrsto veliko vprašanj, kot so:
1) Če imate velike podatke, potrebujete skladišče podatkov?
2) Ali bo Hadoop zamenjal shrambo podatkov?
3) Je to smrt tradicionalne dobe skladišča podatkov?
Da bi poznali odgovore na vsa ta vprašanja, moramo pogledati v širši kontekst te slike.
1. Kaj je Hadoop?
Kdo v zadnjem času ni slišal za Big Data? S stotine terabajtov podatkov, ki se vsak dan pridobivajo iz različnih virov, je jasno, da je današnji sodobni svet svet velikih podatkov
Ko začnete govoriti o velikih podatkih, prej ali slej začnete razpravljati o najbolj vroči temi sveta velikih podatkov: Hadoop - a kaj točno je to?
Hadoop je odprtokodni programski okvir, ki temelji na Javi in podpira obdelavo in shranjevanje izjemno velikih podatkovnih nizov v porazdeljenem računalniškem okolju.
Štirje moduli Hadoopa -
Hadoop je sestavljen iz 4 modulov -
- Razdeljeni datotečni sistem
Razdeljeni datotečni sistem omogoča shranjevanje podatkov v lahko dostopni obliki v večjem številu povezanih naprav za shranjevanje.
- Znižaj zemljevida
Zmanjšanje zemljevida je kombinacija dveh operacij - branje podatkov iz baze podatkov in njihovo postavljanje v obliko, primerno za analizo (zemljevid) in izvajanje matematičnih operacij (zmanjšanje).
- Hadoop pogosti
Hadoop Common ponuja orodja, potrebna za podatke, shranjene v HDFS (Hadoop Distributed File System)
- PREJ
YARN upravlja z viri sistemov, ki shranjujejo podatke in izvajajo analizo.
2. Kaj je shramba podatkov?
Skladišče podatkov je relacijska podatkovna baza, ki je zasnovana za poizvedbe in analize podatkov. Običajno vsebuje zgodovinske podatke, pridobljene iz različnih virov.
Okolje podatkovnega skladišča vključuje rešitve ETL, mehanizem za spletno analitično obdelavo (OLAP), orodja za analizo odjemalcev in druge aplikacije, ki upravljajo s postopkom analize podatkov in dostavljanjem poslovnim uporabnikom.
Povzemimo, kaj je podatkovno skladišče -
-
Predmetno usmerjen
Skladišče podatkov se lahko uporablja za analizo določenega področja, kot so prodaja, finance in zaloga. Vsako področje vsebuje podrobne podatke.
-
Integrirano
Skladišče podatkov združuje podatke iz več virov. Na primer, datumi so v isti obliki, moške / ženske kode so skladne. V podatkovnem skladišču bo samo en način identificiranja izdelka in uporabljajo isti zapis o strankah, ne pa kopije
-
Nehlapljivo
Podatki so shranjeni v podatkovnem skladišču nespremenjeni in se ne bodo spreminjali. Torej zgodovinskih podatkov v podatkovnem skladišču nikoli ne bi smeli spreminjati.
-
Časovna varianta
iz podatkovnega skladišča je mogoče pridobiti podatke iz treh mesecev, 6 mesecev, 12 mesecev ali celo starejših podatkov.
-
Ni virtualno
Shranjevanje podatkov je fizično in obstojno shramba.
Data Warehouse vs Hadoop (Infographics)
Spodaj je zgornjih 6 primerjav med Data Warehouse in Hadoop
Skladišče podatkov v primerjavi s Hadoopom - Kateri uporabiti?
- Če imate čiste, dosledne in kakovostne podatke, pojdite v skladišče podatkov, ker Hadoop v nekaterih svojih rešitvah nima kakovosti podatkov.
- Če imate neobdelane podatke, potem pojdite na Hadoop, ker Hadoop dobro deluje z nestrukturiranimi / surovimi podatki, vendar Data Warehouse deluje samo s strukturiranimi podatki.
- Za nizke zamude in interaktivna poročila morate iti v skladišče podatkov
- Za poizvedbe OLTP / Real-time / Point pojdite na Data Warehouse, ker Hadoop dobro deluje s paketnimi podatki.
- Za velike nabore podatkov o količini bi morali iti v Hadoop, ker je Hadoop zasnovan za reševanje velikih težav s podatki.
Primerjalna tabela med podatki o skladišču podatkov v primerjavi s Hadoopom
Spodaj je seznam točk, ki opisujejo primerjave med skladiščem podatkov in Hadoopom
Osnove za primerjavo | Podatkovno skladišče | Hadoop |
Podatki | V skladišču podatkov analiziramo strukturirane in obdelane podatke | V Hadoopu lahko obdelujemo vse vrste podatkov, tudi strukturirane / nestrukturirane / polstrukturirane in surove |
Obravnavati | Njegova obdelava temelji na koncepcijah, zapisanih v shemi | Njegova obdelava temelji na konceptih, ki jih je mogoče brati s shemo |
Skladiščenje | Primerno za podatke z majhno prostornino in predrago za velike količine podatkov | Dobro deluje pri velikih zbirkah podatkov, ki imajo ogromno prostornino, hitrost in raznolikost |
Okretnost | Je manj gibčen in fiksne konfiguracije | Je zelo prilagodljiv, po potrebi ga konfigurirajte in konfigurirajte |
Varnost | Tehnologije skladiščenja podatkov obstajajo že desetletja. Tako se glede varnosti lahko zanesemo na Data Warehouse | Medtem ko so Hadoop tehnologije relativno nove v primerjavi s skladiščem podatkov, je varnost tukaj velika skrb |
Uporabniki | Poslovni strokovnjaki običajno uporabljajo skladišče podatkov | Hadoop je precej znan na področju znanosti o podatkih in podatkovnem inženiringu |
Zaključek - Skladišče podatkov proti Hadoopu
Zdaj vemo za Data Warehouse in Hadoop oba, vrnimo se nazaj in preučimo vprašanje, ki smo ga zastavili na začetku tega članka Data Warehouse in Hadoop -
1) če imate velike podatke, potrebujete skladišče podatkov?
Odgovor - dokler vaša organizacija potrebuje zanesljive, verodostojne in dostopne podatke, potem potrebujete shrambo podatkov.
2) Ali bo Hadoop zamenjal shrambo podatkov?
Odgovor - Primerjava podatkovne zbirke in Hadoopa je primerjava primerkov jabolk in pomaranč. Tako skladišče podatkov in Hadoop imata v različnih scenarijih uporabe svoje prednosti. V nekaterih primerih smo še vedno odvisni od tradicionalnih tehnik skladiščenja podatkov, vendar se s spremembami časa bolj osredotočamo na Hadoop Framework za reševanje problemov z velikimi podatki.
3) Ali gre za smrt tradicionalne dobe skladišča podatkov?
Odgovor - Kot vidite, to v resnici ni preprosto vprašanje in se zato ne podleže preprostemu odgovoru. Res je, da bodo veliki podatki v naslednjih nekaj letih spremenili tradicionalni pristop hrambe podatkov, vendar koncepti in praksa shranjevanja podatkov ne bodo zastareli.
Priporočeni članek
To je bil koristen vodnik za Data Warehouse vs Hadoop, tukaj smo razpravljali o njihovem pomenu, primerjanju na glavo, ključni razliki in sklepu. Če želite izvedeti več, si oglejte tudi naslednji članek -
- Hadoop vs Splunk - poiščite najboljših 7 razlik
- Hadoop vs Elasticsearch - kateri je bolj uporaben
- Big Data vs Data Warehouse - odkrijte najboljše razlike
- Business Intelligence vs skladišče podatkov
- Splunk proti Nagios