Skladišče podatkov vs Hadoop - 6 pomembnih razlik, ki jih morate vedeti

Kazalo:

Anonim

Razlike med Data Warehouse in Hadoop

V vsakem desetletju IT industrija doživi pomembno novost, ki pretresa celotno IT industrijo. Apache Hadoop je v zadnjih letih storil isto in z dovajanjem podatkovnih centrov z novo infrastrukturo

Ko je programer Hadoop dodal moč vzporedne obdelave tako eksponentno naraščanje, njegov ekosistem pa se širi tako v globino kot v širino, se je naravno vprašati, ali bo Hadoop zamenjal tradicionalno Data Warehouse.

Poglejmo, kaj je Alasdair Anderson (izvršni podpredsednik Nordee) povedal na vrhu v Hadoopu o tej vroči temi v mestu.

"Trenutno med EDW in Hadoopom ni nobene zveze - dopolnila se bosta. NE gre za kopičenje in nadomeščanje: RDBMS ali MPP se ne bomo znebili, temveč bomo za pravo delo uporabili pravo orodje - in to bo zelo vplivalo na ceno.

Kadar koli se začne ta zanimiva razprava, nam prihaja na vrsto veliko vprašanj, kot so:

1) Če imate velike podatke, potrebujete skladišče podatkov?

2) Ali bo Hadoop zamenjal shrambo podatkov?

3) Je to smrt tradicionalne dobe skladišča podatkov?

Da bi poznali odgovore na vsa ta vprašanja, moramo pogledati v širši kontekst te slike.

1. Kaj je Hadoop?

Kdo v zadnjem času ni slišal za Big Data? S stotine terabajtov podatkov, ki se vsak dan pridobivajo iz različnih virov, je jasno, da je današnji sodobni svet svet velikih podatkov

Ko začnete govoriti o velikih podatkih, prej ali slej začnete razpravljati o najbolj vroči temi sveta velikih podatkov: Hadoop - a kaj točno je to?

Hadoop je odprtokodni programski okvir, ki temelji na Javi in ​​podpira obdelavo in shranjevanje izjemno velikih podatkovnih nizov v porazdeljenem računalniškem okolju.

Štirje moduli Hadoopa -

Hadoop je sestavljen iz 4 modulov -

  1. Razdeljeni datotečni sistem

Razdeljeni datotečni sistem omogoča shranjevanje podatkov v lahko dostopni obliki v večjem številu povezanih naprav za shranjevanje.

  1. Znižaj zemljevida

Zmanjšanje zemljevida je kombinacija dveh operacij - branje podatkov iz baze podatkov in njihovo postavljanje v obliko, primerno za analizo (zemljevid) in izvajanje matematičnih operacij (zmanjšanje).

  1. Hadoop pogosti

Hadoop Common ponuja orodja, potrebna za podatke, shranjene v HDFS (Hadoop Distributed File System)

  1. PREJ

YARN upravlja z viri sistemov, ki shranjujejo podatke in izvajajo analizo.

2. Kaj je shramba podatkov?

Skladišče podatkov je relacijska podatkovna baza, ki je zasnovana za poizvedbe in analize podatkov. Običajno vsebuje zgodovinske podatke, pridobljene iz različnih virov.

Okolje podatkovnega skladišča vključuje rešitve ETL, mehanizem za spletno analitično obdelavo (OLAP), orodja za analizo odjemalcev in druge aplikacije, ki upravljajo s postopkom analize podatkov in dostavljanjem poslovnim uporabnikom.

Povzemimo, kaj je podatkovno skladišče -

  1. Predmetno usmerjen

Skladišče podatkov se lahko uporablja za analizo določenega področja, kot so prodaja, finance in zaloga. Vsako področje vsebuje podrobne podatke.

  1. Integrirano

Skladišče podatkov združuje podatke iz več virov. Na primer, datumi so v isti obliki, moške / ženske kode so skladne. V podatkovnem skladišču bo samo en način identificiranja izdelka in uporabljajo isti zapis o strankah, ne pa kopije

  1. Nehlapljivo

Podatki so shranjeni v podatkovnem skladišču nespremenjeni in se ne bodo spreminjali. Torej zgodovinskih podatkov v podatkovnem skladišču nikoli ne bi smeli spreminjati.

  1. Časovna varianta

iz podatkovnega skladišča je mogoče pridobiti podatke iz treh mesecev, 6 mesecev, 12 mesecev ali celo starejših podatkov.

  1. Ni virtualno

Shranjevanje podatkov je fizično in obstojno shramba.

Data Warehouse vs Hadoop (Infographics)

Spodaj je zgornjih 6 primerjav med Data Warehouse in Hadoop

Skladišče podatkov v primerjavi s Hadoopom - Kateri uporabiti?

  • Če imate čiste, dosledne in kakovostne podatke, pojdite v skladišče podatkov, ker Hadoop v nekaterih svojih rešitvah nima kakovosti podatkov.
  • Če imate neobdelane podatke, potem pojdite na Hadoop, ker Hadoop dobro deluje z nestrukturiranimi / surovimi podatki, vendar Data Warehouse deluje samo s strukturiranimi podatki.
  • Za nizke zamude in interaktivna poročila morate iti v skladišče podatkov
  • Za poizvedbe OLTP / Real-time / Point pojdite na Data Warehouse, ker Hadoop dobro deluje s paketnimi podatki.
  • Za velike nabore podatkov o količini bi morali iti v Hadoop, ker je Hadoop zasnovan za reševanje velikih težav s podatki.

Primerjalna tabela med podatki o skladišču podatkov v primerjavi s Hadoopom

Spodaj je seznam točk, ki opisujejo primerjave med skladiščem podatkov in Hadoopom

Osnove za primerjavoPodatkovno skladiščeHadoop
PodatkiV skladišču podatkov analiziramo strukturirane in obdelane podatkeV Hadoopu lahko obdelujemo vse vrste podatkov, tudi strukturirane / nestrukturirane / polstrukturirane in surove
ObravnavatiNjegova obdelava temelji na koncepcijah, zapisanih v shemiNjegova obdelava temelji na konceptih, ki jih je mogoče brati s shemo
SkladiščenjePrimerno za podatke z majhno prostornino in predrago za velike količine podatkovDobro deluje pri velikih zbirkah podatkov, ki imajo ogromno prostornino, hitrost in raznolikost
OkretnostJe manj gibčen in fiksne konfiguracijeJe zelo prilagodljiv, po potrebi ga konfigurirajte in konfigurirajte
VarnostTehnologije skladiščenja podatkov obstajajo že desetletja. Tako se glede varnosti lahko zanesemo na Data WarehouseMedtem ko so Hadoop tehnologije relativno nove v primerjavi s skladiščem podatkov, je varnost tukaj velika skrb
UporabnikiPoslovni strokovnjaki običajno uporabljajo skladišče podatkovHadoop je precej znan na področju znanosti o podatkih in podatkovnem inženiringu

Zaključek - Skladišče podatkov proti Hadoopu

Zdaj vemo za Data Warehouse in Hadoop oba, vrnimo se nazaj in preučimo vprašanje, ki smo ga zastavili na začetku tega članka Data Warehouse in Hadoop -

1) če imate velike podatke, potrebujete skladišče podatkov?

Odgovor - dokler vaša organizacija potrebuje zanesljive, verodostojne in dostopne podatke, potem potrebujete shrambo podatkov.

2) Ali bo Hadoop zamenjal shrambo podatkov?

Odgovor - Primerjava podatkovne zbirke in Hadoopa je primerjava primerkov jabolk in pomaranč. Tako skladišče podatkov in Hadoop imata v različnih scenarijih uporabe svoje prednosti. V nekaterih primerih smo še vedno odvisni od tradicionalnih tehnik skladiščenja podatkov, vendar se s spremembami časa bolj osredotočamo na Hadoop Framework za reševanje problemov z velikimi podatki.

3) Ali gre za smrt tradicionalne dobe skladišča podatkov?

Odgovor - Kot vidite, to v resnici ni preprosto vprašanje in se zato ne podleže preprostemu odgovoru. Res je, da bodo veliki podatki v naslednjih nekaj letih spremenili tradicionalni pristop hrambe podatkov, vendar koncepti in praksa shranjevanja podatkov ne bodo zastareli.

Priporočeni članek

To je bil koristen vodnik za Data Warehouse vs Hadoop, tukaj smo razpravljali o njihovem pomenu, primerjanju na glavo, ključni razliki in sklepu. Če želite izvedeti več, si oglejte tudi naslednji članek -

  1. Hadoop vs Splunk - poiščite najboljših 7 razlik
  2. Hadoop vs Elasticsearch - kateri je bolj uporaben
  3. Big Data vs Data Warehouse - odkrijte najboljše razlike
  4. Business Intelligence vs skladišče podatkov
  5. Splunk proti Nagios