Uvod v AWS EMR

AWS EMR ponuja številne funkcionalnosti, ki nam olajšajo nekatere od teh tehnologij:

  1. Amazon EC2
  2. Amazon RDS
  3. Amazon S3
  4. Amazon CloudFront
  5. Amazonsko samodejno skaliranje
  6. Amazonska Lambda
  7. Amazon Redshift
  8. Amazonska elastična kartaReduce (EMR)

Ena večjih storitev, ki jo ponuja AWS EMR in s katero se bomo ukvarjali, je Amazon EMR.

EMR, ponavadi imenovan Elastic Map Reduce, je preprost in dostopen način za obdelavo večjih kosov podatkov. Predstavljajte si scenarij z velikimi podatki, kjer imamo ogromno podatkov in izvajamo nabor operacij nad njimi, recimo, da se opravi Map-Reduce, eno od glavnih težav, s katerimi se sooča aplikacija Bigdata, je uravnavanje programa, pogosto težko prilagodimo naš program na tak način, da se vsa dodeljena sredstva pravilno porabijo. Zaradi navedenega nastavitvenega faktorja se čas, potreben za obdelavo, postopoma povečuje. Elastic Map Zmanjšajte storitev Amazon, je spletna storitev, ki ponuja okvir, ki na vse stroškovno učinkovite, hitre in varne načine upravlja vse te potrebne funkcije, potrebne za veliko obdelavo podatkov. Od ustvarjanja grozdov do distribucije podatkov v različnih primerih vse te stvari enostavno upravljamo s pomočjo Amazon EMR. Storitve, ki so tukaj na zahtevo, pomenijo, da lahko nadzorujemo številke na podlagi podatkov, ki jih imamo, kar omogoča, če so stroškovno učinkovite in razširljive.

Razlogi za uporabo AWS EMR

Zakaj torej uporabljati AMR, kar omogoča boljše rezultate od drugih. Pogosto se srečujemo z zelo osnovno težavo, ko ne moremo razporediti vseh virov, ki so na voljo preko grozda, nobeni aplikaciji, AMAZON EMR pa skrbi za te težave in glede na velikost podatkov in povpraševanje po aplikaciji dodeli potreben vir. Tudi zaradi svoje elastičnosti lahko to ustrezno spremenimo. EMR ima ogromno podpornih aplikacij, naj bo Hadoop, Spark, HBase lažje za obdelavo podatkov. Podpira različne operacije ETL hitro in stroškovno učinkovito. Lahko se uporablja tudi za MLIB v Spark. V njem lahko izvajamo različne algoritme strojnega učenja. Pa naj bodo to paketni podatki ali pretok podatkov v realnem času EMR lahko organizira in obdeluje obe vrsti podatkov.

Delo AWS EMR

Zdaj si oglejmo ta diagram grozda Amazon EMR in poskusili bomo razumeti, kako dejansko deluje:

Naslednji diagram prikazuje porazdelitev grozdov znotraj EMR. Preverimo podrobnosti:

1. Grozdi so osrednja sestavina Amazonove EMR arhitekture. So zbirka primerkov EC2, imenovani Vozlišča. Vsako vozlišče ima svoje posebne vloge v gruči, ki jih imenujemo vrsta vozlišča in na podlagi njihovih vlog jih lahko razvrstimo v 3 vrste:

  • Glavno vozlišče
  • Glavno vozlišče
  • Naloga vozlišče

2. Glavno vozlišče, kot že ime pove, je poveljnik, ki je odgovoren za upravljanje grozda, zagon komponent in distribucijo podatkov po vozliščih za obdelavo. Samo spremlja, ali je vse pravilno urejeno in deluje v redu in ali deluje v primeru okvare.

3. Core Node je odgovoren za izvajanje naloge in shranjevanje podatkov v HDFS v grozdu. Z vsemi predelovalnimi deli upravlja osrednje vozlišče, podatki po tej obdelavi pa na želeno mesto HDFS.

4. Opravilo vozlišče, ki je izbirno, ima samo nalogo za izvajanje naloge, ki ne shranjuje podatkov v HDFS.

5. Kadar koli po oddaji dela, imamo več načinov, kako izbrati, kako je treba dela dokončati. Od ukinitve grozda po opravljenem opravilu do dolgotrajnega grozda, ki uporablja EMR konzolo in CLI, za predložitev korakov imamo vsi privilegij do tega.

6. Job lahko neposredno zaženemo v EMR tako, da ga povežemo z glavnim vozliščem prek vmesnikov in orodij, ki so na voljo, ki izvajajo opravila neposredno na grozdu.

7. S pomočjo EMR lahko tudi v različnih korakih zaženemo svoje podatke, vse kar moramo storiti je, da pošljemo enega ali več urejenih korakov v gručo EMR. Podatki so shranjeni kot datoteka in se obdelujejo na zaporeden način. Če ga začnemo iz stanja "v stanju čakanja v stanje dokončano", lahko sledimo korakom obdelave in najdemo napake, tudi če gre za "Ni mogoče preklicati", vse te korake lahko zlahka zasledimo do tega.

8. Po prenehanju vseh primerkov je doseženo dano stanje za gručo.

Arhitektura za AWS EMR

Arhitektura EMR se uvede od pomnilniškega do aplikacijskega dela.

  • Prvi sloj je na voljo s shranjevalno plastjo, ki vključuje različne datotečne sisteme, ki se uporabljajo v naši grozdu. Naj bo to od HDFS do EMRFS do lokalnega datotečnega sistema, ti se uporabljajo za shranjevanje podatkov v celotni aplikaciji. Dostop do vmesnih rezultatov med obdelavo MapReduce je mogoče doseči s pomočjo teh tehnologij, ki prihajajo z EMR.
  • Drugi sloj je opremljen z upravljanjem virov za grozd, ta plast je odgovorna za upravljanje virov za grozde in vozlišča v aplikaciji. To v bistvu pomaga kot orodja za upravljanje, ki pomagajo enakomerno razporediti podatke po gruči in pravilno upravljanje. Privzeto orodje za upravljanje z viri, ki ga uporablja EMR, je PREDNJA, ki je bila predstavljena v Apache Hadoop 2.0. Centralno upravlja z viri za več okvirov za obdelavo podatkov. Skrbi za vse informacije, ki so potrebne za dobro delovanje grozda, od zdravja vozlišč do distribucije virov z upravljanjem pomnilnika.
  • Tretji sloj je priložen Okvir za obdelavo podatkov, ta plast je odgovorna za analizo in obdelavo podatkov. Obstaja veliko okvirov, ki jih podpira EMR, ki igra pomembno vlogo pri vzporedni in učinkoviti obdelavi podatkov. Nekateri okvir, ki ga podpira in ki se ga zavedamo, je APACHE HADOOP, SPARK, SPARK STREAMING itd.
  • Četrta plast je sestavljena iz aplikacije in programov, kot so HIVE, PIG, knjižnica za pretakanje, algoritmi ML, ki so uporabni za obdelavo in upravljanje velikih naborov podatkov.

Prednosti AWS EMR

Zdaj preverimo nekatere prednosti uporabe EMR:

  1. Velika hitrost: Ker se vsi viri pravilno uporabljajo, je čas obdelave poizvedbe sorazmerno hitrejši kot druga orodja za obdelavo podatkov zelo jasno.
  2. Obsežna obdelava podatkov: Večja velikost podatkov EMR ima sposobnost obdelave ogromne količine podatkov v dovolj kratkem času.
  3. Minimalna izguba podatkov: Ker se podatki porazdelijo po grozdu in se vzporedno obdelujejo po omrežju, obstaja najmanjša možnost za izgubo podatkov in dobro, stopnja natančnosti obdelanih podatkov je boljša.
  4. Stroškovno učinkovit: Če je stroškovno učinkovit, je cenejši od katere koli druge na voljo, zaradi česar je močan v industriji. Ker so cene manjše, lahko sprejemamo večjo količino podatkov in jih lahko obdelujemo v okviru proračuna.
  5. AWS Integrated: Vključen je z vsemi storitvami AWS, kar omogoča enostavno dostopnost pod streho, tako da so varnost, shranjevanje, mreženje vse integrirano na enem mestu.
  6. Varnost: Na voljo je neverjetna skupina za varnost, ki nadzira vhodni in odhodni promet, tudi uporaba IAM Roles omogoča varnejši dostop do različnih dovoljenj, zaradi katerih so podatki varni.
  7. Spremljanje in uvajanje: imamo ustrezna orodja za spremljanje za vso aplikacijo, ki deluje preko gruč EMR, kar omogoča pregleden in enostaven za analizo del, poleg tega pa je na voljo tudi funkcija za samodejno uvajanje, kjer je aplikacija samodejno konfigurirana in nameščena.

Veliko več prednosti ima EMR kot boljša izbira druge metode računanja grozdov.

AWS EMR cene

EMR ponuja neverjetno cenovno ponudbo, ki pritegne razvijalce ali trg. Ker je na voljo s cenovno funkcijo na zahtevo, jo lahko uporabljamo le nekaj urno in število vozlišč v našem grozdu. Stopnjo v sekundi lahko plačamo za vsako sekundo, ki jo uporabimo z minuto. Izberemo lahko tudi primere, ki jih bomo uporabili kot rezervirane primerke ali točkovne primerke, pri čemer je to mesto precej prihranjeno.

Skupni račun lahko izračunamo s preprostim mesečnim kalkulatorjem na spodnji povezavi: -

https://calculator.s3.amazonaws.com/index.html#s=EMR

Za več podrobnosti o natančnih podrobnostih cen si lahko ogledate spodaj navedeni dokument pri Amazonu: -

https://aws.amazon.com/emr/pricing/

Zaključek

Iz zgornjega članka smo videli, kako se lahko EMR uporablja za pošteno obdelavo velikih podatkov z vsemi sredstvi, ki se uporabljajo konvencionalno.

EMR rešuje naš osnovni problem obdelave podatkov in skrajša čas obdelave za lepo število, saj je stroškovno učinkovit in je enostaven za uporabo.

Priporočeni članek

To je vodnik za AWS EMR. Tukaj razpravljamo o uvodu AWS EMR skupaj z njegovim Delom in arhitekturo kot tudi Prednostmi. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. AWS alternative
  2. AWS ukazi
  3. Storitve AWS
  4. Vprašanja za intervju AWS
  5. Storitve skladiščenja AWS
  6. Najboljših 7 tekmovalcev AWS
  7. Seznam funkcij spletnih storitev Amazon

Kategorija: