Uvod v iskriva vprašanja in odgovore za intervju
Apache Spark je okvir z odprto kodo. Spark, ker gre za odprtokodno platformo, lahko uporabimo več programskih jezikov, kot so java, python, Scala, R. V primerjavi z zmogljivostjo procesa Map-Reduce iskrica pomaga pri izboljšanju zmogljivosti izvedbe. Omogoča tudi 100-krat hitrejšo izvedbo pomnilnika kot Map-Reduce. Dandanes je industrija bolj všeč iskri zaradi tehnologije predelave iskre.
Torej ste končno našli svojo sanjsko službo v Sparku, vendar se sprašujete, kako pobiti Spark Intervju in kakšna bi bila verjetno vprašanja Spark Interview za leto 2018. Vsak intervju je drugačen in tudi obseg dela je drugačen. Upoštevajoč to, da smo za leto 2018 zasnovali najpogostejša vprašanja in odgovore v zvezi z iskricami, ki vam bodo pomagali doseči uspeh v intervjuju.
Ta vprašanja so razdeljena na dva dela
1. del - Spark Intervju Vprašanja (osnovno)
Ta prvi del zajema osnovna vprašanja in odgovore za Spark
1. Kaj je iskra?
Odgovor:
Apache Spark je okvir z odprto kodo. Izboljša učinkovitost izvedbe kot postopek zmanjšanja zemljevidov. To je odprta platforma, kjer lahko uporabljamo več programskih jezikov, kot so Java, Python, Scala, R. Spark zagotavlja izvedbo v pomnilniku, ki je 100-krat hitrejša od zmanjšanja zemljevidov. Uporablja koncept RDD. RDD je prožen razporejeni nabor podatkov, ki mu omogoča pregledno shranjevanje podatkov v pomnilnik in vztrajanje pri diskutiranju le potrebnih podatkov. Tu boste skrajšali čas za dostop do podatkov iz pomnilnika namesto diska. Danes industrija raje Spark zaradi svoje procesne moči.
2. Razlika med Hadoopom in Sparkom?
Odgovor:
Merila značilnosti | Apache iskrica | Hadoop |
Hitrost | 10 do 100-krat hitrejši od Hadoopa | Normalna hitrost |
Obravnavati | V realnem času in paketna obdelava, spomin, predpomnjenje | Samo paketna obdelava, odvisno od diska |
Težavnost | Enostavno zaradi modulov na visoki ravni | Težko se učiti |
Okrevanje | Omogoča obnovitev particij z uporabo RDD | Napačno odporen |
Interaktivnost | Ima interaktivne in interaktivne načine | Brez interaktivnega načina razen prašiča in panja, brez iterativnega načina |
Običajna arhitektura Hadoop sledi osnovnemu zmanjšanju zemljevida. Za isti proces iskra zagotavlja izvedbo v pomnilniku. Namesto branja in pisanja s trdega diska za Map-Reduce iskrice zagotovite branje in pisanje iz virtualnega pomnilnika.
Pojdimo na naslednja vprašanja o intervjuju z iskricami
3. Katere so lastnosti iskre?
Odgovor:
- Poskrbite za integracijo s Hadoopom in datotekami na HDFS. Iskra se lahko izvaja na vrhu Hadoopa z uporabo grozdov virov YARN. Spark lahko nadomesti Hadoopov Map-Reduce motor.
- Poliglot: Spark Zagotovite API na visoki ravni za Java, Python, Scala in R. Spark Code lahko pišete v katerem koli od teh štirih jezikov. IT ponuja neodvisno lupino za lestvico (jezik, v katerem je napisana Spark) in tolmač python. Kaj bo pomagalo pri interakciji z motorjem z iskricami? Do lupine Scala lahko dostopate prek ./bin/spark-shell in lupine Python prek ./bin/pyspark iz nameščenega imenika.
- Hitrost: Spark motor je 100-krat hitrejši od Hadoop Map-Reduce za obsežne obdelave podatkov. Hitrost bo dosežena s particijo za paralelizacijo porazdeljene obdelave podatkov z minimalnim omrežnim prometom. Spark Provide RDD (Resilient Distributed Nets), ki jih je mogoče shraniti v računalniška vozlišča v gruči
- Več oblik: Spark ima API za vir podatkov. Omogočil bo mehanizem za dostop do strukturiranih podatkov prek iskre SQL. Viri podatkov so lahko karkoli, Spark bo samo ustvaril mehanizem za pretvorbo podatkov in potegnil k iskri. Spark podpira več virov podatkov, kot so Hive, HBase, Cassandra, JSON, Parquet, ORC.
- Spark ponuja nekaj vgrajenih knjižnic za izvajanje več nalog iz istega jedra, kot so paketna obdelava, parjenje, strojno učenje, interaktivne poizvedbe SQL. Vendar Hadoop podpira samo paketno obdelavo. Spark Zagotovite MLIb (knjižnice strojnega učenja), ki bodo v pomoč velikemu razvijalcu za obdelavo podatkov. To pomaga odstraniti odvisnosti od več orodij za različne namene. Spark ponuja skupno zmogljivo platformo podatkovnim inženirjem in podatkovnim strokovnjakom s hitro in učinkovito uporabo.
- Apache Spark zakasni izvedbo postopka, dokler ni potrebno dejanje. To je ena od ključnih lastnosti iskre. Spark bo dodala vsako preobrazbo v DAG (Direct Acyclic Graph) za izvedbo, in ko želi dejanje izvesti, bo dejansko sprožilo postopek DAG.
- Streaming v realnem času: Apache Spark Zagotavlja izračune v realnem času in nizko zamudo zaradi izvedbe v pomnilniku. Spark je zasnovan za velike razširljivosti, kot je tisoč vozlišč grozda in več modelov za izračune.
4. Kaj je preja?
Odgovor:
To je osnovno Spark Intervju Vprašanja, ki so jih postavili v intervjuju. YARN (še en pogajalec o virih) je upravitelj virov. Spark je platforma, ki omogoča hitro izvedbo. Spark bo uporabljal YARN za izvajanje opravila v grozdu, ne pa v svojem vgrajenem upravitelju. Obstaja nekaj konfiguracij za zagon Preje. Vključujejo glavni, zagon, pomnilnik gonilnikov, pomnilnik izvršitelja, jedra izvršitelja in čakalno vrsto. To so pogosta vprašanja o intervjuju z iskricami, ki so vam zastavljena v spodnjem intervjuju, prednosti iskre:
Prednosti iskre za zmanjšanje zemljevida
Spark ima prednosti pred zmanjšanjem zemljevidov na naslednji način: -
Spark je zaradi sposobnosti postopka v pomnilniku izvedel 10 do 100 krat hitreje kot Map-Reduce. Kjer je mogoče zmanjšati zemljevid za obstojnost podatkov na stopnji Zemljevid in pomanjšati.
Apache Spark zagotavlja visoko raven vgrajenih knjižnic za obdelavo več nalog hkrati s paketno obdelavo, pretakanjem v realnem času, Spark-SQL, Strukturiranim pretakanjem, MLib itd. Hkrati Hadoop zagotavlja samo paketno obdelavo.
Postopek Hadoop Map-Reduce bo odvisen od diska, kjer Spark zagotavlja predpomnjenje in spomin.
Spark ima tako iterativno, izvaja več računov na istem naboru podatkov in interaktivno, izvaja računanje med različnimi nabori podatkov, kjer Hadoop ne podpira iterativnega računanja.
5. Kateri jezik podpira Spark?
Odgovor:
Spark podpira skala, Python, R in Java. Na trgu razvijalec velikih podatkov večinoma raje skala in python. Za lestvico za sestavljanje kode potrebujemo Set Path of scale / bin direktorij ali naredimo datoteko jar.
6. Kaj je RDD?
Odgovor:
RDD je abstrakcija odpornega nabora podatkov, ki ponuja zbirko elementov, porazdeljenih po vseh vozliščih grozda, kar bo pomagalo vzporedno izvajati več procesov. Z uporabo razvijalca RDD lahko shranite podatke v pomnilnik ali predpomnilnik in jih učinkovito uporabite za vzporedno izvajanje operacij. RDD je mogoče zlahka obnoviti zaradi okvare vozlišča.
2. del - Spark Intervju Vprašanja (napredno)
Oglejmo si zdaj napredna vprašanja o intervjuju z iskricami.
7. Kateri dejavniki so odgovorni za izvedbo iskre?
Odgovor:
1. Spark omogoča izvedbo v pomnilniku namesto na disku, kot je Hadoop Map-Reduce.
2.RDD Resilient Distributed Dataset, ki je odgovorna vzporedna izvedba več operacij na vseh vozliščih grozda.
3. Spark ponuja funkcijo skupne spremenljivke za vzporedno izvajanje. Te spremenljivke pomagajo zmanjšati prenos podatkov med vozlišči in deliti kopijo vseh vozlišč. Obstajata dve spremenljivki.
4.Broadcast spremenljivka: Ta spremenljivka se lahko uporablja za predpomnjenje vrednosti v pomnilniku na vseh vozliščih
5. Spremenljivka akumulatorjev: Ta spremenljivka je samo "dodana", kot so števci in vsote.
8. Kaj je spomin izvršitelja?
Odgovor:
To so najpogostejša vprašanja o iskrenju v intervjuju. Velikost kopice je dodeljena izvajalcu iskre. To lastnost lahko nadziramo s pomočjo spark.executor.memory lastnosti zastave –executor-memory. Vsaka aplikacija Spark ima za vsakega delavskega vozlišča po enega izvajalca. Ta lastnost se nanaša na to, koliko pomnilnika delavskih vozlišč bo dodeljeno aplikaciji.
9. Kako uporabljate iskrivi tok? Pojasni en primer uporabe?
Odgovor:
Spark Stream je ena od lastnosti, ki je uporabna za uporabo v realnem času. V ta namen lahko uporabimo flume, Kafka z iskrico. Flume sproži podatke iz vira. Kafka bo podatke shranila v Topic. Kafka Spark bo potegnila podatke s pomočjo toka in podatke bo D-tok prenesla in izvedla transformacijo.
Ta postopek lahko uporabimo za sumljive transakcije v realnem času, ponudbe v realnem času itd.
Pojdimo na naslednja vprašanja o intervjuju z iskricami
10. Ali lahko uporabimo Spark za postopek ETL?
Odgovor:
Da, za postopek ETL lahko uporabimo iskrišče.
11. Kaj je Spark SQL?
Odgovor:
Gre za eno posebno komponento iskre, ki bo podpirala poizvedbe SQL.
12. Kaj leno vrednotenje?
Odgovor:
Ko delamo z iskrico, se Transformacije ne ovrednotijo, dokler ne izvedete dejanja. To pomaga optimizirati celoten potek obdelave podatkov. Ko definira transformacijo, bo dodala DAG (Direct Acyclic Graph). In v času akcije bo začel izvajati postopne preobrazbe. To je koristno Spark Interview Question, ki ste ga postavili v intervjuju.
Priporočeni članek
To je vodnik za seznam vprašanj in odgovorov za intervju z iskricami, tako da lahko kandidat zlahka razbije ta vprašanja za intervju z iskricami. Če želite izvedeti več, si oglejte tudi naslednje članke -
- Java vs Node JS poenostavlja razlike
- Vprašanja za intervju z zbirko podatkov Mongo | Uporabna in najbolj zastavljena
- 15 najuspešnejših vprašanj in odgovorov R Intervju
- Perl Intervju Vprašanja in odgovori
- Vprašanja o intervjuju za sistem SAS - Top 10 uporabnih vprašanj