Kaj je algoritem MapReduce?

Algoritem MapReduce večinoma navdihuje model funkcionalnega programiranja. Uporablja se za obdelavo in generiranje velikih podatkov. Ti nabori podatkov se lahko zaženejo sočasno in distribuirajo v gruči. Program MapReduce v glavnem sestavljajo postopek zemljevida in metoda zmanjšanja za izvajanje povzetka operacije, kot sta štetje ali dajanje nekaterih rezultatov. Sistem MapReduce deluje na porazdeljenih strežnikih, ki delujejo vzporedno in upravljajo vse komunikacije med različnimi sistemi. Model je posebna strategija strategije delitve-uporabe-združevanja, ki pomaga pri analizi podatkov. Kartiranje opravi razred Mapper in zmanjša nalogo, ki ga opravi razred Reducer.

Razumevanje algoritma MapReduce

Algoritem MapReduce večinoma deluje v treh korakih:

  • Funkcija zemljevida
  • Shuffle Funkcija
  • Zmanjšajte funkcijo

Pogovorimo se o vsaki funkciji in njenih odgovornostih.

1. Funkcija zemljevida

To je prvi korak algoritma MapReduce. Vzame nabore podatkov in jih razdeli na manjše pod-naloge. To se naredi v dveh korakih, razdelitvi in ​​preslikavi. Razdelitev vzame vhodni nabor podatkov in razdeli nabor podatkov, medtem ko preslikava sprejme te podvrste podatkov in izvede potrebno dejanje. Izhod te funkcije je par ključ-vrednost.

2. Funkcija mešanja

To je znano tudi kot funkcija kombiniranja in vključuje združevanje in razvrščanje. Združevanje združuje vse pare ključ-vrednost. Vsi ti bodo imeli enake tipke. Razvrščanje vzame vnos iz koraka spajanja in razvrsti vse pare ključ-vrednost s pomočjo tipk. Ta korak se bo vrnil tudi k parom ključ-vrednost. Izhod bo razvrščen.

3. Zmanjšajte funkcijo

To je zadnji korak tega algoritma. Iz mešanja vzame pare ključ-vrednost in zmanjša delovanje.

Kako algoritmi MapReduce olajšajo delo?

Sistemi relacijskih baz podatkov imajo centraliziran strežnik, ki pomaga pri shranjevanju in obdelavi podatkov. To so bili ponavadi centralizirani sistemi. Ko v sliko pride več datotek, je obdelava dolgočasna in med obdelavo več datotek ustvari ozko grlo. MapReduce preslika nabor podatkov in pretvori nabor podatkov, kjer so vsi podatki razdeljeni na umovi, zmanjšanje pa bo v tem koraku izvedlo izhod iz tega koraka in združilo te nabore podatkov v manjše nivoje. Deluje v različnih fazah in ustvarja pare ključ-vrednost, ki jih je mogoče razdeliti po različnih sistemih.

Kaj lahko storite z algoritmi MapReduce?

MapReduce lahko uporabljate z različnimi aplikacijami. Uporablja se lahko za porazdeljeno iskanje na podlagi vzorcev, porazdeljeno razvrščanje, preusmeritev spletnih grafov, statistiko dnevnika spletnega dostopa. Pomaga lahko tudi pri ustvarjanju in delu na več grozdih, namiznih omrežjih, prostovoljnih računalniških okoljih. Ustvarite lahko tudi dinamična oblačna okolja, mobilna okolja in tudi visoko zmogljiva računalniška okolja. Google je uporabil MapReduce, ki obnavlja Googlov indeks svetovnega spleta. Z njegovo uporabo se posodobijo stari ad hoc programi in izvajajo različne vrste analiz. Vključil je tudi rezultate iskanja v živo, ne da bi ponovno zgradil celoten indeks. Vsi vhodi in izhodi so shranjeni v porazdeljenem datotečnem sistemu. Prehodni podatki so shranjeni na lokalnem disku.

Delo z algoritmom MapReduce

Če želite sodelovati z algoritmom MapReduce, morate poznati celoten postopek, kako deluje. Zaužitje podatkov poteka skozi naslednje korake:

1. Vhodne delitve: Vsi vhodni podatki, ki pridejo do opravila MapReduce, so razdeljeni na enake dele, znane kot vhodne razdelitve. To je del vnosa, ki ga lahko zaužije kateri koli od zemljevidov.

2. Kartiranje: Ko se podatki razdelijo na koščke, gre v fazo preslikave v programu za zmanjšanje zemljevidov. Ti razdeljeni podatki se posredujejo funkciji preslikave, ki proizvaja različne izhodne vrednosti.

3. Shuffling: Ko je preslikava končana, se podatki pošljejo tej fazi. Njegova naloga je združiti zahtevane zapise iz prejšnje faze.

4. Zmanjšanje: V tej fazi se proizvodnja iz faze mešanja združi. V tej fazi se vse vrednosti premešajo in združijo tako, da se združijo tako, da vrne eno samo izhodno vrednost. Ustvari povzetek celotnega nabora podatkov.

Prednosti algoritma MapReduce

Aplikacije, ki uporabljajo MapReduce, imajo naslednje prednosti:

  1. Omogočili so jim konvergenco in dobro posplošitev.
  2. Podatke je mogoče obdelati z uporabo aplikacij, ki intenzivno uporabljajo podatke.
  3. Omogoča visoko razširljivost.
  4. Preštevanje morebitnih pojavov vsake besede je enostavno in zbira ogromno dokumentov.
  5. Za iskanje orodja pri številnih analizah podatkov lahko uporabite generično orodje.
  6. Ponuja čas uravnavanja obremenitve v velikih grozdih.
  7. Pomaga tudi pri pridobivanju kontekstov lokacije uporabnikov, situacij itd.
  8. Hitro lahko dostopa do velikih vzorcev anketirancev.

Zakaj bi morali uporabljati algoritem MapReduce?

MapReduce je aplikacija, ki se uporablja za obdelavo ogromnih nizov podatkov. Te zbirke podatkov je mogoče obdelati vzporedno. MapReduce lahko potencialno ustvari velike nabore podatkov in veliko število vozlišč. Ti veliki nabori podatkov so shranjeni na HDFS, kar olajša analizo podatkov. Lahko obdeluje vse vrste podatkov, kot so strukturirani, nestrukturirani ali polstrukturirani.

Zakaj potrebujemo algoritem MapReduce?

MapReduce hitro raste in pomaga pri vzporednem računanju. Pomaga pri določanju cene izdelkov in pomaga pri doseganju največjega dobička. Pomaga tudi pri napovedovanju in priporočanju analiz. Programerjem omogoča, da poganjajo modele po različnih zbirkah podatkov in uporablja napredne statistične tehnike in tehnike strojnega učenja, ki pomagajo pri napovedovanju podatkov. Filtrira in pošilja podatke v različna vozlišča znotraj grozda in deluje v skladu s funkcijo preslikava in reduktorja.

Kako vam bo ta tehnologija pomagala pri karierni rasti?

Hadoop je danes najbolj iskanih delovnih mest. Pospešuje hitrost in priložnost, ki na tem področju raste zelo hitro. Na tem področju se bo še bolj razmahnil. IT strokovnjaki, ki delajo na Javi, imajo pozitivno točko, saj so najbolj iskani ljudje. Razvijalci, arhitekti podatkov, skladišča podatkov in strokovnjaki za BI lahko z učenjem te tehnologije odvzamejo ogromno plače.

Zaključek

MapReduce je osnova okvira Hadoop. Če se boste tega naučili, boste zagotovo vstopili na trg za analizo podatkov. Lahko se temeljito naučite in spoznate, kako se obdelujejo veliki nabori podatkov in kako ta tehnologija prinaša spremembe pri obdelavi in ​​shranjevanju podatkov.

Priporočeni članki

To je vodnik po algoritmih MapReduce. Tukaj razpravljamo o konceptu, razumevanju, delu, potrebah, prednostih in karierni rasti. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Vprašanja za intervju z MapReduce
  2. Kaj je MapReduce v Hadoopu?
  3. Kako deluje MapReduce?
  4. Kaj je MapReduce?
  5. Razlike med Hadoop in MapReduce
  6. Različne operacije povezane s Tuplemi

Kategorija: