Uvod v arhitekturo iskre Apache

V tem članku so opredeljeni koncepti Apache Spark Architecture in njenih komponent. Šteje se, da je najvišja raven obdelave podatkov na Apache Software Foundation. Spark velja, da je Hadoop in Map Reduce še ena možnost.

Spark je odprtokodna arhitektura z dobro opredeljenimi komponentami, ki pomagajo analizirati veliko količino podatkov in deluje za porazdeljeno računalništvo. Spark je napisan v Scali z omogočenimi funkcijami, kot so API-ji, R in ima obogaten nabor knjižnic, kar olajša obdelavo podatkov. Apache Spark ima svoje individualno računanje grozdov za hitrejšo dostopnost in izvajanje na različnih platformah.

Apache Spark ima široko paleto funkcij, kot je pospeševanje hitrejšega postopka v pomnilniku, prilagaja se več programskim jezikom, ima izboljšane tehnike predpomnjenja in podpira poizvedbe SQL, Strojno učenje. Deluje na platformah, kot sta operacijski sistem Microsoft Windows in Linux. Njihova namestitev pravi, da bi lahko delovali tudi na enem stroju in v načinu grozda.

Apache Spark Architecture

Iskra Architecture of Apache ima ohlapno povezane komponente. Iskrica upošteva glavni / delovni proces v arhitekturi in vsa naloga deluje na vrhu razporejenega datotečnega sistema Hadoop. Apache iskra uporablja Hadoop za obdelavo in shranjevanje podatkov. Šteje se, da je motor za obdelavo podatkov v pomnilniku, zato se njihove aplikacije izvajajo na skupinah Hadoop hitreje kot pomnilnik. Obdelava v pomnilniku preprečuje izpad diskovnih V / I. Spark omogoča, da raznoliko opravilo deluje z istimi podatki. Spark svoje podatke deli na particije, velikost razdeljenih particij je odvisna od danega vira podatkov.

Spodaj sta glavni izvedbi Apache Spark Architecture:

1. Prosti razporejeni nabori podatkov (RDD)

Odgovoren je za zagotavljanje API-ja za nadzor predpomnjenja in particij. To je pomemben nabor orodij za računanje podatkov. Pomaga pri preračunavanju elementov v primeru okvar in velja za nepogrešljive podatke in deluje kot vmesnik. Preoblikovanja in dejanja sta dve operaciji, ki ju je izvedel RDD.

2. Usmerjeni aciklični graf (DAG)

Iz enega vozlišča v drugo tvori zaporedno povezavo. Gonilnik program pretvori v DAG za vsako opravilo. Ekosistem Apache Spark ima različne komponente, kot so jedro API, Spark SQL, Streaming in obdelava v realnem času, MLIB in Graph X. Nekaj ​​terminologij, ki se jih je treba naučiti tukaj, je lupina Spark, ki pomaga pri branju velike količine podatkov, kontekst Spark - preklicati, zagnati službo, opravilo (delo), delo (računanje)

Sestavni deli arhitekture iskre Apache

Spodaj so podane štiri glavne komponente iskre, zato jih je treba razumeti za celoten okvir.

  1. Voznik iskre
  2. Izvršitelji
  3. Upravitelj grozdov
  4. Delavska vozlišča

Naslednji diagram prikazuje arhitekturo in komponente iskre:

Fig: Samostojni način Apache Spark Architecture

Izvedbeni tok se začne na naslednji način:

1. Voznik iskre

Voznikova odgovornost je usklajevanje nalog in delavcev za upravljanje. To je aplikacijski JVM postopek in velja za glavno vozlišče. Voznik iskric razdeli na naloge in urnike, ki jih izvrši na izvršiteljih v grozdih. V diagramu gonilni programi prikličejo glavno aplikacijo in ustvarijo iskriv kontekst (deluje kot prehod), skupaj spremljajo opravilo, ki deluje v dani grozdu, in se povežejo v skupino Spark. Vse funkcionalnosti in ukazi se izvajajo v kontekstu iskre.

Kontekst iskric je vnos za vsako sejo. Gonilnik iskri ima več komponent za izvajanje nalog v grozdih. Grozdni grozdi se povežejo z različnimi vrstami upraviteljev grozdov in hkrati kontekst pridobi delovna vozlišča za izvajanje in shranjevanje podatkov. Ko izvajamo postopek v grozdu, je njihovo opravilo razdeljeno na stopnje s stopnjami pridobivanja na načrtovane naloge.

2. Izvršitelj

Odgovoren je za izvedbo opravila in podatke shrani v predpomnilnik. Na prvi stopnji se izvršitelji prijavijo med voznike. Ta izvajalec ima več časovnih rež za sočasno zagon aplikacije. Izvršitelji izvajajo postopek branja / pisanja na zunanjih virih. Izvršitelj opravi nalogo, ko naloži podatke in jih odstrani v prostem teku. Izvajalcu omogočimo dinamično razporeditev in so nenehno vključene in izključene, odvisno od trajanja. Med izvajanjem nalog izvajalce spremlja program voznika. Izvršitelji izvajajo nalogo uporabnikov v procesu java.

3. Upravitelj grozdov

Pomaga pri upravljanju grozdov, ki imajo enega voditelja in število sužnjev. Obstajata dve vrsti upraviteljev grozdov, kot sta YARN in samostojna, oba pa upravljata Resource Manager in Node. delo v grozdih v samostojnem načinu zahtevata Spark Master in vozlišče delavcev kot njuni vlogi. Odgovornost upravljavca grozdov je, da dodeli sredstva in izvede nalogo,

4. Delavska vozlišča

So suženjska vozlišča; glavna odgovornost je izvajanje nalog, rezultat teh pa se vrne v kontekst iskri. Z glavno vozlišče komunicirajo o razpoložljivosti virov. Spark kontekst ga izvaja in izda delavčevim vozliščem. Vsakim delavskim vozliščem je dodeljen en iskrivec za spremljanje. Izračunavanje opravijo zelo preprosto s povečanjem delovnih vozlišč (od 1 do n delavcev), tako da se vse naloge izvajajo vzporedno z deljenjem naloge na particije na več sistemov. Naloga drugega elementa se šteje za delovno enoto in je dodeljena enemu izvajalcu, za vsako iskro particije pa ena naloga.

Zaključek

Zato z razumevanjem Apache Spark Architecture označuje, kako na preprost način implementirati velike podatke. Konec koncev smo se naučili njihove dostopnosti in njihovih komponent, kar je zelo koristno za grozdno računalništvo in tehnologijo velikih podatkov. Iskalno izračunajte želene rezultate na lažji način in prednost pri serijski obdelavi.

Spark-ove značilnosti, kot so nabor podatkov in podatkovni okviri, pomagajo optimizirati uporabniško kodo. Pomembna funkcija, kot je motor SQL, spodbuja hitrost izvajanja in naredi to programsko opremo vsestransko uporabno. Zato smo videli, da se aplikacije iskric izvajajo lokalno ali se distribuirajo v grozdu. Apache Spark velja za odlično dopolnilo v številnih panogah, kot so veliki podatki. Če povzamem, iskra pomaga pri reševanju velikih računskih nalog.

Priporočeni članki

To je vodnik Apache Spark Architecture. Tukaj razpravljamo o Uvodu v Apache Spark arhitekturo skupaj s komponentami in blokovno shemo Apache Spark. Obiščite lahko tudi druge naše predlagane članke, če želite izvedeti več -

  1. Iskreni ukazi lupine
  2. Ekosistem Apache Hadoop
  3. Velika podatkovna arhitektura
  4. Kaj je Apač

Kategorija: