Kako namestiti iskrilo?
Spark je odprtokodni okvir za zagon analitičnih aplikacij. To je motor za obdelavo podatkov, ki ga gostitelj pri prodajalcu - neodvisni programski fundaciji Apache Software deluje za velike nabore podatkov ali velike podatke. Gre za sistem splošnih računalniških sistemov, ki zagotavlja API-je na visoki ravni v Scali, Python, Java in R. Razvit je bil za premagovanje omejitev v paradigmi Hadoop MapReduce. Znanstveniki podatkov verjamejo, da se Spark izvaja 100-krat hitreje kot MapReduce, saj lahko predpomni podatke v pomnilnik, medtem ko MapReduce več dela z branjem in pisanjem na diske. Izvaja obdelavo v pomnilniku, zaradi česar je močnejša in hitrejša.
Spark nima svojega datotečnega sistema. Obdeluje podatke iz različnih virov podatkov, kot so Hadoop Distributed File System (HDFS), Amazonov sistem S3, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Lahko se izvaja v Hadoop YARN (še en pogajalec o virih), v Mesosu, na EC2, v Kubernetesu ali z uporabo samostojnega načina grozda. Uporablja RDD (Resilient Distributed Dataset) za prenos delovnih obremenitev na posamezna vozlišča, ki podpirajo v iterativnih aplikacijah. Zaradi RDD je programiranje v primerjavi s Hadoopom enostavno.
Iskra je sestavljena iz različnih komponent, imenovanih sestavni deli iskrega ekosistema.
- Spark Core: Je temelj aplikacije Spark, od katere so druge komponente neposredno odvisne. Ponuja platformo za najrazličnejše aplikacije, kot so načrtovanje, razporejanje odposlanih nalog, obdelava pomnilnika in sklicevanje na podatke.
- Spark Streaming: Sestavni del, ki deluje na prenosu podatkov v živo, zagotavlja analitiko v realnem času. Podatki v živo se zaužijejo v diskretne enote, imenovane serije, ki se izvajajo na Spark Core.
- Spark SQL: Sestavni del, ki deluje na vrhu jedra Spark, izvaja SQL poizvedbe po strukturiranih ali polstrukturiranih podatkih. Podatkovni okvir je način za interakcijo s Spark SQL.
- GraphX: Računalniški mehanizem ali ogrodje za grafiko omogoča tiskanje grafov. Ponuja različne algoritme grafov za zagon na Spark.
- MLlib: Vsebuje algoritme strojnega učenja, ki zagotavljajo ogrodje strojnega učenja v porazdeljenem okolju, ki temelji na pomnilniku. Zaradi zmožnosti obdelave podatkov v pomnilniku učinkovito izvaja iterativne algoritme.
- SparkR: Spark ponuja paket R za zagon ali analizo naborov podatkov z uporabo lupine R.
Obstajajo trije načini za namestitev ali uvajanje iskri v vaše sisteme:
- Samostojni način v Apache Spark
- Hadoop PRIJA / Mesos
- SIMR (iskrica v MapReduce)
Oglejmo si uvajanje v samostojnem načinu.
Iskriv samostojni način razmestitve:
1. korak: Posodobite indeks paketa
To je potrebno za posodobitev vseh obstoječih paketov v vašem stroju.
Uporabite ukaz : $ sudo apt-get update
2. korak: Namestite Java Development Kit (JDK)
Tako boste JDK namestili v svoj stroj in vam pomagali zagnati Java aplikacije.
3. korak: Preverite, ali se je Java pravilno namestila
Java je predpogoj za uporabo ali zagon aplikacij Apache Spark.
Uporabite ukaz : $ java –verzija
Ta posnetek zaslona prikazuje različico jave in zagotavlja prisotnost jave na stroju.
4. korak: Namestite Scala na svoj stroj
Ker je Spark napisan v skali, je treba namestiti lestvico, da se na vašem stroju sproži iskra.
Uporabite ukaz: $ sudo apt-get install scala
5. korak: Preverite, ali je Scala pravilno nameščena
To bo zagotovilo uspešno namestitev lestvice v vaš sistem.
Uporabite ukaz : $ scala –verzija
6. korak: Prenesite iskrenje Apache
Prenesite Apache Spark v skladu s svojo Hadoop različico s https://spark.apache.org/downloads.html
Ko boste šli na zgornjo povezavo, se bo prikazalo okno.
7. korak: Izberite ustrezno različico glede na vašo Hadoop različico in kliknite na označeno povezavo.
Pojavilo se bo drugo okno.
8. korak: Kliknite povezavo, ki je označena in v vaš sistem bo naložena iskre Apache.
Preverite, ali je datoteka .tar.gz na voljo v mapi za prenos.
9. korak: Namestite Apache Spark
Za namestitev Iskrice je treba izvleči datoteko katrana.
Uporabite ukaz: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz
Morate spremeniti različico, navedeno v ukazu, glede na preneseno različico. V tem smo prenesli različico spark-2.4.0-bin-hadoop2.7.
10. korak: Nastavitvena spremenljivka okolja za Apache Spark
Uporabite ukaz: $ source ~ / .bashrc
Dodaj vrstico : izvozi PATH = $ PATH: / usr / local / iskra / bin
11. korak: Preverite namestitev Apache Spark
Uporabite ukaz : $ spark-shell
Če je bila namestitev uspešna, se ustvari naslednji izhod.
To pomeni uspešno namestitev Apache Spark na vaš stroj in Apache Spark se bo začel v Scali.
Uveljavitev iskrice na Hadoopu PREVAJ:
Za nameščanje Apache Spark na Hadoop YARN obstajata dva načina.
- Način grozda: V tem načinu YARN na grozdu upravlja gonilnik Spark, ki teče znotraj glavnega postopka aplikacije. Po zagonu aplikacije lahko stranka odide.
- Način odjemalca: V tem načinu se viri zahtevajo od YARN od glavnega programa in gonilnik Spark se izvaja v odjemalskem postopku.
Za namestitev aplikacije Spark v načinu grozda uporabite ukaz:
$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar
Zgornji ukaz zažene program odjemalca YARN, ki bo zagnal privzeti glavni program.
Za namestitev aplikacije Spark v odjemalskem načinu uporabite ukaz:
$ spark-submit –master yarn –deploy –mode client mySparkApp.jar
Lupino iskrice v odjemalskem načinu lahko zaženete z ukazom:
$ spark-shell –master yarn –deploy-mode client
Nasveti in nasveti za namestitev iskri:
- Prepričajte se, da je na vašem stroju nameščena Java.
- Če uporabljate jezik skale, se prepričajte, da je lestvica že nameščena, preden uporabite Apache Spark.
- Python lahko uporabljate tudi namesto Scale za programiranje v programu Spark, vendar mora biti prednameščen, kot je Scala.
- Apache Spark lahko zaženete tudi v operacijskem sistemu Windows, vendar je priporočljivo, da ustvarite virtualni stroj in namestite Ubuntu z uporabo Oracle Virtual Box ali VMWare Player .
- Spark se lahko izvaja brez Hadoopa (tj. Samostojnega načina), če pa je potrebna nastavitev na več vozlišč, so potrebni upravitelji virov, kot sta YARN ali Mesos.
- Medtem ko uporabljate YARN, Spark ni treba namestiti na vsa tri vozlišča. Apache Spark morate namestiti samo na eno vozlišče.
- Medtem ko uporabljate YARN, če ste v istem lokalnem omrežju z grozdom, potem lahko uporabite odjemalski način, če pa ste daleč, lahko uporabite način grozda.
Priporočeni članki - namestitev iskre
To je navodila za namestitev Spark-a. Tu smo videli, kako namestiti Apache Spark v samostojnem načinu in na vrhu upravitelja virov YARN, poleg tega pa je omenjenih nekaj nasvetov in trikov za nemoteno namestitev Spark-a. Če želite izvedeti več, si oglejte tudi naslednji članek -
- Kako uporabljati iskrive ukaze
- Kariera v Sparku - morate poskusiti
- Razlike med Splunk in Spark
- Spark Intervju Vprašanja in odgovori
- Prednosti iskrečega pretakanja
- Vrste združitev v Spark SQL (primeri)