Kaj je MapReduce v Hadoopu

MapReduce je Hadoop ogrodje, ki se uporablja na zanesljiv način za obdelavo ogromnih količin podatkov o velikih grozdih blagovne strojne opreme. Hadoop je odprtokodni projekt, ki ga nudi programska fundacija Apache. Hadoop je za hitro in zanesljivo analizo izvajal tako strukturirane podatke kot nestrukturirane podatke. Hadoop lahko obravnava zelo velike nabore podatkov, ki bi lahko bili tako strukturirani podatki kot nestrukturirani podatki, kar je dejansko povezano z velikimi podatki. Okvir Hadoop, ki aplikaciji omogoča shranjevanje podatkov v razdeljeni obliki in obdelavo velikih nizov podatkov v grozdih računalnikov z uporabo preprostega programskega modela, to je tisto, kar zmanjša Map, torej z drugimi besedami lahko imenujemo Map Reduce kot programski model, ki se uporablja za obdelavo ogromna količina podatkov, razporejenih po številu grozdov. Hadoop lahko poveča obseg od posameznih strežnikov do tisoč računalniških vozlišč ali strojev, ki jih vsaka uporablja za računanje in shranjevanje.

Projekt Apache Hadoop vsebuje številne podprojekte, kot so:

  • Hadoop Common: Hadoop Common ima pripomočke, ki podpirajo druge podprojekte Hadoop.
  • Hadoop Distributed File System (HDFS): Hadoop Distributed File System omogoča dostop do porazdeljene datoteke do podatkov aplikacije.
  • Hadoop MapReduce: Hadoop MapReduce je programski okvir za obdelavo velikih porazdeljenih naborov podatkov na računskih grozdih.
  • Hadoop PREVA: Hadoop Preja je okvir za upravljanje virov in načrtovanje delovnih mest.

Kako MapReduce v Hadoopu omogoča tako enostavno delo?

MapReduce omogoča enostavno povečanje obsega obdelave podatkov na več sto ali tisoč strojih z grozdi. Model MapReduce dejansko deluje v dveh korakih, ki se imenujejo preslikava in redukcija, obdelava pa se imenuje kar mapper ali reduktor. Ko za aplikacijo napišemo MapReduce, je aplikacija za povečanje velikosti ali celo več tisoč skupin zgolj sprememba konfiguracije. Ta značilnost modela MapReduce je pritegnila številne programerje, da jo uporabljajo.

Kako deluje MapReduce v Hadoopu?

Program MapReduce se izvaja predvsem v štirih korakih:

  1. Vhodna razdelitev
  2. Zemljevid
  3. Premešanje
  4. Zmanjšaj

Zdaj bomo vsak korak videli, kako delujejo.

1. Korak zemljevida -

Ta korak je kombinacija vhodnega razdelitvenega koraka in koraka Zemljevid. V koraku z zemljevidom se izvorna datoteka prenese kot vrstica za vrstico. Pred vnosom v funkcijo Map Map je vhod razdeljen na majhno fiksno velikost, ki se imenuje Vhodna razcepitev. Razdelek vnosa je kos vnosa, ki ga lahko porabi en sam zemljevid. V koraku Map (Zemljevid) se vsi razdeljeni podatki prenesejo v funkcijo preslikave, nato funkcija mapper obdela podatke in nato izhodne vrednosti. Na splošno so vhodni podatki zemljevida ali zemljevida v obliki datoteke ali imenika, ki so shranjeni v datotečnem sistemu Hadoop (HDFS).

2. Zmanjšajte korak

Ta korak je kombinacija koraka Shuffle in Reduce. Funkcija zmanjšanja ali Reducerjeva naloga prevzame podatke, ki so rezultat funkcije zemljevida. Po obdelavi z zmanjšanjem funkcije nastane nov niz rezultatov, ki se spet shrani v HDFS.

V Hadoopovem okviru ni gotovo, da vsak grozd izvaja katero opravilo ali preslikava ali zmanjša ali obe mapi in zmanjša. Torej je treba zahtevo nalog Map and Reduce poslati ustreznim strežnikom v grozdu. Okvir Hadoop sam upravlja vse naloge izdaje, preverjanja zaključka dela, pridobivanja podatkov iz HDFS, kopiranja podatkov v gručo vozlišč in tako naprej. V Hadoopu večinoma računanje poteka na vozliščih, skupaj s podatki v samih vozliščih, kar zmanjšuje omrežni promet.

Okvir MapReduce je tako zelo koristen v okviru Hadoop.

Prednosti MapReduce

  1. Prilagodljivost - MapReduce je naredil Hadoop zelo razširljiv, saj omogoča shranjevanje velikih nizov podatkov v obliki za distribucijo na več strežnikov. Ker je razporejen po več, lahko deluje tudi vzporedno.
  2. Stroškovno učinkovita rešitev - MapReduce ponuja zelo stroškovno učinkovito rešitev za podjetja, ki morajo shranjevati naraščajoče podatke in obdelati podatke na zelo stroškovno učinkovit način, kar je današnja potreba podjetja.
  3. Prilagodljivost - MapReduce omogoča Hadoop zelo prilagodljiv za različne vire podatkov in celo za različne vrste podatkov, kot so strukturirani ali nestrukturirani podatki. Tako je zelo prožen za dostop do strukturiranih ali nestrukturiranih podatkov in obdelavo le-teh.
  4. Hitro - Kot Hadoop shranjevanje podatkov v porazdeljenem datotečnem sistemu, s katerim se shranjevanje podatkov na lokalni disk grozda in programov MapReduce običajno nahaja tudi na istih strežnikih, kar omogoča hitrejšo obdelavo podatkov, saj ni potrebe po dostopu podatke iz drugih strežnikov.
  5. Vzporedna obdelava - Ker so podatki za shranjevanje podatkov Hadoop v porazdeljenem datotečnem sistemu in delovanju programa MapReduce takšni, da razdeli zemljevid nalog in zmanjša in zmanjša in se lahko izvaja vzporedno. In spet zaradi vzporedne izvedbe zmanjša celoten čas izvajanja.

Spretnosti

Zahtevane spretnosti za MapReduce v Hadoopu so dobro poznavanje programa Java (obvezno), operacijski sistem Linux in znanje SQL poizvedb.

Obseg MapReduce v Hadoopu

MapReduce v Hadoopu je hitro rastoče polje, saj polje z velikimi podatki raste, zato je obseg MapReduce v Hadoopu v prihodnosti zelo obetaven, saj se količina strukturiranih in nestrukturiranih podatkov iz dneva v dan eksponentno povečuje. Platforme družbenih medijev ustvarjajo veliko nestrukturiranih podatkov, ki jih je mogoče pridobiti, da bi dobili resničen vpogled v različna področja.

Zaključek

  • MapReduce je Hadoop ogrodje, ki se uporablja na zanesljiv način za obdelavo ogromnih količin podatkov o velikih grozdih blagovne strojne opreme.
  • Projekt Apache Hadoop vsebuje številne podprojekte, kot so Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • V koraku preslikave se vsi razdeljeni podatki prenesejo v funkcijo preslikave, nato funkcija preslikava obdela podatke in nato izhodne vrednosti.
  • Funkcija zmanjšanja ali Reducerjeva naloga prevzame podatke, ki so rezultat funkcije zemljevida.
  • Prednosti MapReduce so navedene kot skalabilnost, stroškovno učinkovita rešitev, fleksibilnost, hitra, vzporedna obdelava.

Priporočeni članki

To je vodnik o tem, kaj je MapReduce v Hadoopu. Tu smo razpravljali o komponentah, delu, spretnostih, karierni rasti in prednostih MapReduce v Hadoopu. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke

  1. Kaj je algoritem?
  2. Razlike med Hadoop in MapReduce
  3. Kaj je Azure?
  4. Kaj je tehnologija velikih podatkov?
  5. Kako deluje MapReduce

Kategorija: