Ugotovite najboljših 5 razlik med Hadoopom in MapReduce

Razlika med Hadoop in MapReduce

Korenine Hadoopa segajo v leto 2002, ko je Dough Cutting delal na odprtokodnem projektu z imenom Nutch (ki je bil uporabljen za indeksiranje spletnih strani in uporabo indeksiranih spletnih strani za iskanje, isto kar počne Google). Soočil se je z vprašanji razširljivosti tako v smislu shranjevanja kot tudi računalništva. Leta 2003 je Google objavil GFS (google datotečni sistem), leta 2004 pa je Nutch ustvaril NDFS (Nutch distribucijski datotečni sistem). Potem ko je Google razglasil MapReduce za svoje računske možgane za svojimi algoritmi za razvrščanje, je Dough lahko vodil Nutch na NDFS in uporabil MapReduce v letu 2005 in v letu 2006 se je rodil Hadoop.

Hadoop in MapReduce! Hadoop je ekosistem odprtokodnih projektov, kot so Hadoop Common, Hadoop porazdeljeni datotečni sistem (HDFS), Hadoop YARN, Hadoop MapReduce. Hadoop je kot tak odprt okvir za shranjevanje in obdelavo ogromnih nizov podatkov. Shranjevanje nosi HDFS, za obdelavo pa skrbi MapReduce. MapReduce je na drugi strani programski model, ki vam omogoča obdelavo ogromnih podatkov, shranjenih v Hadoop.let, v tej objavi podrobno razumemo Hadoop in MapReduce.

Primerjava med proizvajalci Hadoop Vs MapReduce (Infographics)

Spodaj je zgornjih 5 primerjav med Hadoop in MapReduce

Ključne razlike med Hadoop proti MapReduce

Sledi razlika med Hadoop in MapReduce

Če hočemo razlikovati Hadoop in MapReduce v laičnem pogledu, lahko rečemo, da je Hadoop podoben avtomobilu, v katerem imate vse, kar je potrebno za prevožene razdalje, vendar je MapReduce kot motor avtomobila, zato brez avtomobila motor ne more ' t obstaja, toda zunanjost avtomobila se lahko spremeni (drugi DFS (porazdeljeni datotečni sistemi)).
Osnovna ideja podjetja Hadoop je, da morajo biti podatki zanesljivi in razširljivi, zanesljivi, saj morajo biti v primeru nesreče ali okvare omrežja podatki ves čas na voljo, kar doseže Hadoop-ov okvir z uporabo imenskih vozlišč in podatkovnih vozlišč.
Nekaj osnovne ideje podatkovnih vozlišč in imenskih vozlišč

Osnovna ideja za arhitekturo Data Node in Name Node je glavna / slave arhitektura, kjer ena shrani lokacijo podatkov (Name Node), druga pa shrani same podatke (Data Node). Podatki so razdeljeni na koščke 64 mb in shranjeni v podatkovnih blokih, njihov register pa se vodi v imenskem vozlišču. Za zanesljivost se podatki trikrat privzeto kopirajo. Če govorimo o razširljivosti, se strojna oprema lahko poveča na poti, kar pomaga povečati skladiščenje in narediti sistem razširljiv.
Zdaj prihajajo na MapReduce tri faze
1. Faza zemljevida
2. Faza premeščanja
3. Zmanjšajte fazo

Vzemimo primer, da ga bolje razumemo. MapReduce, ki je programski okvir, ima tudi zdravi svetovni program, vendar je v MapReduce znan kot program štetja besed.

Program Štetje besed nam v odstavku / članku ali katerem koli viru podatkov poda pari vrednosti ključ in vrednost ter njihova pogostost. Za lažje razumevanje vzemimo spodnje primere kot primer.

Kot vidimo, imamo v treh podatkih avtobus, avto in vlak. Stolpec z imenom Input ima podatke, kot jih imamo v naboru podatkov, stolpec Izhod ima podatke v vmesni fazi, v kateri bo potekalo premeščanje.

Tu jemljemo cepilnik kot vejico (, ) za delitev besed. Cepilec je lahko vejica ali presledki ali nova vrstica itd.

Vnos

Nabor podatkov

car, avto, avto, avtobus, vlak, avtobus, vlak, avtobus, vlak, avtobus, avto, avto, avtobus, avto, vlak, avto, avtobus, avto

Izhod

Pretvarjanje v drug niz podatkov

(Ključ, vrednost)

(Avtobus, 1), (Avto, 1), (avtobus, 1), (avto, 1), (vlak, 1),

(avto, 1), (avtobus, 1), (avto, 1), (vlak, 1), (avtobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(avto, 1), (BUS, 1), (VLAK, 1)

In izhod zgornje vmesne stopnje je dan reduktorju, spodaj pa končni rezultat programa.

Vnos

(izhod funkcije Map)

Set Tuple

(Avtobus, 1), (Avto, 1), (avtobus, 1), (avto, 1), (vlak, 1),

(avto, 1), (avtobus, 1), (avto, 1), (vlak, 1), (avtobus, 1),

(VLAK, 1), (BUS, 1), (buS, 1), (caR, 1), (CAR, 1),

(avto, 1), (BUS, 1), (VLAK, 1)

Izhod

Pretvori se v manjši nabor tupolov

(BUS, 7),

(CAR, 7),

(VLAK, 4)

Ena od ključnih razlik Hadoopa z drugimi velikimi okviri za obdelavo podatkov je, da Hadoop pošlje kodo (kodo MapReduce) v grozde, kjer so shranjeni podatki, namesto da jih pošlje v kodo, saj bodo nabori podatkov v TB ali včasih v PB to bo mučna naloga.

Hadoop vs MapReduce primerjalna tabela

Osnove za primerjavo	Hadoop	MapReduce
Pomen	Ime "Hadoop" je bilo ime otroškega slona sina Douga Cuttinga. Ta projekt je poimenoval "Hadoop", saj ga je bilo enostavno izgovoriti.	Ime »MapReduce« je nastalo glede na funkcionalnost samega preslikavanja in zmanjševanja v parih ključ-vrednost.
Koncept	Apache Hadoop je ekosistem, ki zagotavlja okolje, ki je zanesljivo, razširljivo in pripravljeno za porazdeljeno računalništvo.	MapReduce je podmodul tega projekta, ki je programski model in se uporablja za obdelavo ogromnih nizov podatkov, ki sedijo v HDFS (Hadoop porazdeljeni datotečni sistem).
Predpogoji	Hadoop deluje na implementaciji HDFS (distribucijski datotečni sistem Hadoop)	MapReduce lahko deluje v HDFS / GFS / NDFS ali katerem koli drugem porazdeljenem datotečnem sistemu, na primer MapR-FS
Jezik	Hadoop je zbirka vseh modulov in zato lahko vključuje tudi druge programske / skriptne jezike	MapReduce je v osnovi napisan v programskem jeziku Java
Okvir	Hadoop ima ne le okvir za shranjevanje, ki shranjuje podatke, temveč ustvarja ime vozlišča in vozlišča podatkov, ima tudi druge okvire, ki vključujejo tudi MapReduce.	MapReduce je programski okvir, ki uporablja ključ, preslikave vrednosti za razvrščanje / obdelavo podatkov

Spodnja slika bo pomagala razlikovati MapReduce od Hadoopa.

MapReduce Framework

Kot lahko vidimo na zgornji sliki, da je MapReduce porazdeljen procesni okvir, medtem ko je Hadoop zbirka vseh okvirov.

Zaključek - Hadoop proti MapReduce

Hadoop, ki je odprtokoden, je pridobil na priljubljenosti, saj je bil brezplačen za uporabo in programerji lahko kodo spremenijo glede na svoje potrebe. Eko sistem Hadoop je bil v preteklih letih nenehno razvit, da bi bil ekosistem čim manj napak.

Z nenehno spreminjajočimi se potrebami sveta se tehnologija hitro spreminja in težko je slediti spremembam. Podatki, ki se ustvarijo v mesecu, se ob branju tega članka podvojijo / potrojijo, potreba po hitrejši obdelavi podatkovnih nizov pa je privedla do številnih drugih programskih okvirov, kot so MapReduce 2, Spark itd.

Priporočeni članki

To je vodnik za Hadoop proti MapReduce, njihov pomen, primerjava med seboj, ključne razlike, tabela primerjave in sklep. Če želite izvedeti več, si oglejte tudi naslednje članke -