Hadoop Cluster Intervju Vprašanja in odgovori
Namen tega članka je pomagati vsem aspirantom velikih podatkov, da odgovorijo na vsa vprašanja o intervjuju Hadoop Cluster Interview v zvezi z nastavitvijo okolja velikega podatkov v organizaciji. Ta vprašalnik bo pomagal pri postavitvi podatkovnih vozlišč, imenskih vozlišč in pri določanju zmogljivosti gostiteljskega strežnika demonov Big Data.
Če ste končno našli svojo sanjsko službo v Hadoop Clusterju, vendar se sprašujete, kako polomiti intervju s Hadoop Clusterjem in kaj bi lahko bilo verjetno Hadoop Cluster Intervju Vprašanja. Vsak intervju je drugačen in tudi obseg dela je drugačen. Upoštevajoč to, da smo zasnovali najpogostejša vprašanja in odgovore Hadoop Cluster Interview, ki vam bodo pomagali doseči uspeh v intervjuju.
Nekatera najpomembnejša vprašanja o intervjuju za Hadoop Cluster, ki jih pogosto postavljajo v intervjuju, so:
1.Kaj so glavne komponente Hadoop v skupini Hadoop?
Odgovor:
Hadoop je okvir, kjer obdelujemo velike podatke ali Hadoop je platforma, na kateri lahko obdelujemo ogromno količino podatkov na blagovnih strežnikih. Hadoop je kombinacija številnih komponent. Sledijo glavne sestavine v okolju Hadoop.
Ime vozlišča : Glavno vozlišče skrbi za vse informacije o vozliščih podatkov in shranjevanje podatkov v obliki metapodatkov.
Sekundarno ime vozlišča : deluje kot primarno ime vozlišča, če se primarno ime vozlišče spusti.
HDFS (Hadoop Distributed File System) : skrbi za shranjevanje grozda Hadoop.
Podatkovna vozlišča : Podatkovna vozlišča so podrejena vozlišča. Dejanski podatki se shranijo v podrejene vozlišča za obdelavo.
PRIJAZ (še en pogajalec o virih) : programski okvir za pisanje aplikacij in obdelavo velike količine podatkov. Ponuja enake lastnosti kot MapReduce, poleg tega bi omogočil, da se vsako paketno opravilo vzporedno izvaja v skupini Hadoop.
2. Kako načrtovati shranjevanje podatkov v grozdu Hadoop?
Odgovor:
Shranjevanje temelji na formuli (Storage = Daily zaužitje podatkov * Replication).
Če grozd Hadoop vsak dan dobiva 120 TB in imamo privzeti faktor podvajanja, zato bi bila dnevna zahteva za shranjevanje podatkov
Zahteva za shranjevanje = 120 TB (dnevno zaužitje podatkov) * 3 (privzeto podvajanje) => 360 TB
Kot rezultat tega moramo vzpostaviti vsaj 360 TB grozdov podatkov za dnevno potrebo po zaužitju podatkov.
Shranjevanje je odvisno tudi od zahteve po hrambi podatkov. V primeru, da želimo podatke shranjevati dve leti v istem grozdu, moramo urediti podatkovna vozlišča v skladu z zahtevami hrambe.
3.Računite številke podatkovnega vozlišča.
Odgovor:
Izračunati moramo številna podatkovna vozlišča, potrebna za grozd Hadoop. Recimo, da imamo strežnike z JBOD 10 diskov in vsak disk ima 4 TB velikosti pomnilnika, tako da ima vsak strežnik 40 TB prostora. Skupina Hadoop dobi podatke 120 TB na dan in 360 TB po uporabi privzetega faktorja podvajanja.
Št. Podatkovnih vozlišč = Dnevno zaužitje podatkov / zmogljivost podatkovnih vozlišč
Število podatkovnih vozlišč = 360/40 => 9 podatkovnih vozlišč
Zato mora skupina Gadoop, ki dobi 120 podatkov TB z zgornjo konfiguracijo, nastaviti samo 9 podatkovnih vozlišč.
4.Kako spremeniti faktor podvajanja v grozdu Hadoop?
Odgovor:
Uredite datoteko hdfs-site.xml. Privzeta pot je pod conf / mapo namestitvenega imenika Hadoop. spremeni / dodaj naslednjo lastnost v hdfs-site.xml:
dfs.replication
3
Blokiranje replike
Ni obvezen faktor replikacije 3. Lahko ga nastavimo tudi kot 1. Faktor podvajanja 5 deluje tudi v grozdu Hadoop. Če nastavite privzeto vrednost, grozd postane bolj učinkovit in je potrebna minimalna strojna oprema.
Povečanje faktorja podvajanja bi povečalo zahteve po strojni opremi, ker se shranjevanje podatkov množi s faktorjem podvajanja.
5.Kaj je privzeta velikost podatkovnega bloka v Hadoopu in kako ga spremeniti?
Odgovor:
Velikost bloka zmanjša podatke / razdeli podatke v bloke in jih shrani na različna različna podatkovna vozlišča.
Privzeto je velikost bloka 128 MB (v Apache Hadoop) in lahko spremenimo privzeto velikost bloka.
Uredite datoteko hdfs-site.xml. Privzeta pot je pod conf / mapo namestitvenega imenika Hadoop. spremeni / dodaj naslednjo lastnost v hdfs-site.xml:
dfs.block.size
134217728
Velikost bloka
velikost bloka v bajtih je 134, 217, 728 ali 128 MB. Določite tudi velikost s pripono (neobčutljivo na veliko), kot so k (kilo-), m (mega-), g (giga-) ali t (tera-), da nastavite velikost bloka v KB, MB, TB itd…
6.Kako dolga skupina Hadoop mora imeti shranjeno datoteko HDFS v imeniku brisanje / smeti?
Odgovor:
"Fs.trash.interval" je parameter, ki določa, kako dolgo lahko HDFS hrani katero koli izbrisano datoteko v okolju Hadoop, da naloži izbrisano datoteko.
Intervalno obdobje je mogoče določiti samo v minutah. Za 2-dnevni interval iskanja moramo lastnost določiti v tekoči obliki.
Uredite datoteko core-site.xml in jo dodajte / spremenite s pomočjo naslednje lastnosti
fs.trash.interval
2880
Interval nalaganja je privzeto 0, vendar lahko Hadoop Administrator nad lastnostjo doda / spremeni zgoraj navedeno lastnost.
7.Kaj so osnovni ukazi za zagon in ustavljanje demonov Hadoop?
Odgovor:
Vsi ukazi za zagon in zaustavitev demonov, shranjenih v sbin / mapi.
./sbin/stop-all.sh - Za zaustavitev vseh demonov naenkrat.
vozlišče začetnega imena hadoop-daemon.sh
Vozlišče za zagon podatkov Hadoop-daemon.sh
yarn-daemon.sh, zaženite upravitelja virov
yarn-daemon.sh, zaženite upravitelja vozlišč
mr-jobhistory-daemon.sh strežnik za začetek zgodovine
8.Kaj je lastnost za določitev razporeditve pomnilnika za naloge, ki jih upravlja YARN?
Odgovor:
Lastnost "yarn.nodemanager.resource.memory-mb" je treba spremeniti / dodati, da spremenite dodelitev pomnilnika za vse naloge, ki jih upravlja YARN.
Določa količino RAM-a v MB. Podatkovna vozlišča porabijo 70% dejanskega RAM-a, ki se uporablja za YARN. Podatkovno vozlišče z 96 GB bo za YARN porabilo 68 GB, preostali del RAM-a uporablja demon Data Node za "Non-YARN-Work"
Uredite datoteko "yarn.xml file" in dodajte / spremenite naslednjo lastnost.
preja.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb privzeta vrednost je 8, 192MB (8GB). Če imajo podatkovna vozlišča veliko zmogljivost RAM-a, moramo spremeniti vrednost do 70%, zapravljali bomo spomin.
9. Kakšna so priporočila za velikost imenskega vozlišča?
Odgovor:
Naslednje podrobnosti so priporočljive za nastavitev glavnega vozlišča v zelo začetni fazi.
Procesorji: Za procese je dovolj en sam CPU s 6-8 jeder.
Pomnilnik RAM: strežnik za obdelavo podatkov in opravil mora imeti vsaj 24-96 GB RAM-a.
Shranjevanje: Ker v glavnem vozlišču niso shranjeni podatki HDFS. Kot lokalno shrambo lahko uporabite 1-2TB
Ker se je težko odločiti za prihodnje delovne obremenitve, zato oblikujte gručo tako, da izberete strojno opremo, kot so CPU, RAM in pomnilnik, ki jo je mogoče sčasoma nadgraditi.
10.Kaj so privzeta vrata v grozdu Hadoop?
Odgovor:
Ime Daemon | Privzeta vrata št |
Ime vozlišča. | 50070 |
Podatkovna vozlišča. | 50075 |
Vozlišče sekundarnega imena. | 50090 |
Varnostno kopiranje / vozlišče. | 50105 |
Sledilnik zaposlitve. | 50030 |
Sledilniki nalog. | 50060 |
Priporočeni članki
To je vodnik za seznam vprašanj in odgovorov o seznamu Hadoop Cluster, tako da lahko kandidat zlahka razbije ta vprašanja o intervjuju s Hadoop grozdom. Če želite izvedeti več, si oglejte tudi naslednje članke -
- Vprašanja za intervju z elastičnimi raziskavami in odgovori na vrh in najbolj koristna
- 9 Amazing MapReduce Intervju Vprašanja in odgovori
- 8 Najbolj uporaben vodnik za vprašanja o intervjuju z Big Data
- Vprašanja in intervju, ki bi jih morali vedeti