Kaj je MapReduce?

Programski okvir MapReduce se uporablja za izvajanje porazdeljene in vzporedne obdelave z velikimi množicami podatkov v porazdeljenem okolju. Map and Reduce sta dve različni nalogi programa za zmanjšanje zemljevidov. Sprva v fazi preslikave se podatki preberejo in iz njih ustvarijo pari ključ-vrednost. Nato se ti pari ključ-vrednost vnesejo v zmanjšanje naloge, ki združi podatke para ključ-vrednost v manjši niz vrednosti, ki ustvari končni izhod. Tako je naloga za zmanjšanje vedno izvedena po opravljeni nalogi zemljevida. Obdelavo podatkov je zelo enostavno spremeniti v več računskih vozlišč.

V programu so namreč tri faze:

  1. Stage zemljevida
  2. Shuffle Stage
  3. Zmanjšajte stopnjo

Primer :

Problem s številom besed -

Recimo spodaj so vhodni podatki:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

1. Zgornji podatki so razdeljeni na tri vhodne delitve, kot so spodaj:

  • Mike Jon Jake
  • Paul Paul Jake
  • Mike Paul Jon

2. Nato se ti podatki prenesejo v naslednjo fazo, imenovano faza preslikave.

Torej, za prvo vrstico (Mike Jon Jake) imamo 3 pare ključ-vrednost - Mike, 1; Jon, 1; Jake, 1.

Spodaj je rezultat v fazi preslikave:

  • Mike, 1
    Jon, 1
    Jake, 1
  • Pavla, 1
    Pavla, 1
    Jake, 1
  • Mike, 1
    Pavla, 1
    Jon, 1

3. Zgornji podatki se nato vnesejo v naslednjo fazo, imenovano faza sortiranja in premikanja.

V tej fazi so podatki združeni v edinstvene ključe in so razvrščeni. Spodaj je rezultat sortiranja in premikanja:

  • Jake, (1, 1)
  • Jon, (1, 1)
  • Mike, (1, 1)
  • Paul, (1, 1, 1)

4. Zgornji podatki se nato vnesejo v naslednjo fazo, imenovano faza redukcije.

Tu so vse ključne vrednosti združene in šteje število 1. Spodaj je rezultat v fazi zmanjševanja:

  • Jake, 2
  • Jon, 2
  • Mike, 2
  • Pavla, 3

Prednosti MapReduce:

Tukaj smo izvedeli nekaj pomembnih prednosti programskega okvira MapReduce,

1. Prilagodljivost

Hadoop kot platforma, ki je zelo razširljiva in je v veliki meri zaradi svoje sposobnosti, da shranjuje in distribuira velike nabore podatkov po številnih strežnikih. Tukaj uporabljeni strežniki so precej poceni in lahko delujejo vzporedno. Procesno moč sistema je mogoče izboljšati z dodatkom več strežnikov. Tradicionalni sistemi za upravljanje relacijskih baz podatkov ali RDBMS niso bili sposobni meriti za obdelavo ogromnih podatkovnih nizov.

2. Prilagodljivost

Programski model Hadoop MapReduce ponuja fleksibilnost za obdelavo strukturnih ali nestrukturiranih podatkov s strani različnih poslovnih organizacij, ki jih lahko uporabijo in lahko delujejo na različnih vrstah podatkov. Tako lahko ustvarijo poslovno vrednost iz tistih podatkov, ki so poslovne organizacije smiselni in uporabni za analizo. Ne glede na vir podatkov, naj bo to družabni medij, clickstream, e-pošta itd., Hadoop ponuja podporo za številne jezike, ki se uporabljajo za obdelavo podatkov. Poleg vsega tega Hadoop MapReduce programiranje omogoča številne aplikacije, kot so trženjska analiza, sistem priporočil, skladišče podatkov in odkrivanje prevar.

3. Varnost in overjanje

Če katera koli zunanja oseba dobi dostop do vseh podatkov organizacije in lahko manipulira z več petabajti podatkov, lahko to naredi veliko škode v smislu poslov, ki se ukvarjajo s poslovanjem poslovne organizacije. To tveganje obravnava programski model MapReduce z delom s hdfs in HBase, ki omogoča visoko varnost, ki omogoča samo potrjenemu uporabniku, da deluje na shranjenih podatkih v sistemu.

4. stroškovno učinkovita rešitev

Tak sistem je zelo razširljiv in je zelo stroškovno učinkovita rešitev poslovnega modela, ki mora shranjevati podatke, ki naraščajo eksponentno v skladu s potrebami tekočega dne. V primeru starih tradicionalnih sistemov za upravljanje relacijskih baz podatkov ni bilo tako enostavno obdelati podatkov kot s sistemom Hadoop v smislu razširljivosti. V takšnih primerih je bilo podjetje prisiljeno zmanjšati podatke in nadalje uvesti klasifikacijo na podlagi predpostavk, kako so lahko določeni podatki koristni za organizacijo in s tem odstranjevanje neobdelanih podatkov. Tu je na pomoč priskočila arhitektura Hadoop scaleout s programiranjem MapReduce.

5. Hitro

Hadoop porazdeljeni datotečni sistem HDFS je ključna funkcija, ki se uporablja v Hadoopu in v bistvu izvaja sistem preslikave za iskanje podatkov v gruči. Programiranje MapReduce je orodje, ki se uporablja za obdelavo podatkov, nahaja pa se tudi na istem strežniku in omogoča hitrejšo obdelavo podatkov. Hadoop MapReduce obdeluje velike količine podatkov, ki so v manj časa nestrukturirani ali polstrukturirani.

6. Preprost model programiranja

Programiranje MapReduce temelji na zelo preprostem programskem modelu, ki programerjem v bistvu omogoča, da razvijejo program MapReduce, ki z več enostavnosti in učinkovitosti lahko reši veliko več nalog. Programski model MapReduce je napisan z jezikom Java, je zelo priljubljen in zelo enostaven za učenje. Ljudje se lahko preprosto naučijo programiranja Java in modela za obdelavo podatkov, ki ustreza njihovim poslovnim potrebam.

7. Vzporedna obdelava

Programski model razdeli naloge na način, ki omogoča vzporedno izvajanje neodvisne naloge. Zato ta vzporedna obdelava postopkom olajša sprejemanje vsake naloge, kar pomaga pri zagonu programa v veliko manj časa.

8. Razpoložljivost in prožna narava

Programski model Hadoop MapReduce obdeluje podatke tako, da podatke pošlje v posamezno vozlišče in enak niz podatkov posreduje drugim vozliščem v omrežju. Posledično je v primeru okvare v določenem vozlišču enaka kopija podatkov še vedno na voljo na drugih vozliščih, ki jo je mogoče uporabiti, kadar se zahteva, da se zagotovi razpoložljivost podatkov.
Na ta način je Hadoop odporen na napake. To je edinstvena funkcionalnost, ki jo ponuja Hadoop MapReduce, da lahko hitro prepozna napako in hitro popravi rešitev za samodejno obnovitev.

Po vsem svetu je veliko podjetij, ki uporabljajo zemljevide z zmanjšanjem zemljevidov, kot so facebook, yahoo itd.

Zaključek - Kaj je MapReduce

Map zmanjšanje ima veliko sposobnost, ko gre za obsežno obdelavo podatkov v primerjavi s tradicionalnimi RDBMS sistemi. Mnoge organizacije so že spoznale njen potencial in se premikajo k tej novi tehnologiji. Jasno je, da je zmanjšanje zemljevidov zelo dolgo v veliki platformi za obdelavo podatkov.

Priporočeni članki

To je vodnik za Kaj je MapReduce. Tu smo razpravljali o osnovnem konceptu, primerih in prednostih MapReduce. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Kaj je JavaScript?
  2. Vprašanja za intervju z MapReduce
  3. Kaj je Python
  4. Kako deluje MapReduce
  5. Kaj je Big data in Hadoop

Kategorija: