Uvod v vprašanja in odgovore o panju

V novi podatkovni dobi je Hive odprtokodni paket orodij z orodjem ETL in zbirke podatkov za shranjevanje strukturiranih in nestrukturiranih podatkov na podlagi distribuiranega datotečnega sistema (HDFS)
za analizo, poizvedovanje in rudarjenje nizov velikih količin podatkov z omogočanjem jezika, podobnega SQL-om, imenovanim HiveQL (HQL) in enostavno izvedbo poizvedb z načrtovanjem Hadoop MapReduce.

Hive je zgrajen na vrhu Hadoopa za obdelavo in analizo velikih podatkov in poenostavlja poizvedovanje.
Panj je sprva ustvaril Facebook, pozneje ga je Apache Software Foundation nadalje odprl in razvil kot odprto kodo in ga poimenoval Apeche Pive. Zdaj veliko podjetij uporablja Apache Hive za rešitve Big Data.

Če iščete službo, povezano s Pivem, se morate pripraviti na vprašanja o intervjuju za panj 2018. Čeprav je vsak intervju drugačen in je obseg zaposlitve tudi drugačen, vam lahko pomagamo pri vrhunskih vprašanjih in odgovorih o intervjuju za panj 2018, ki vam bodo pomagali narediti preskok in doseči uspeh v intervjuju.

Spodaj je zgornji seznam Hive Intervju Vprašanja, ki so večinoma postavljena v intervjuju. Ta vprašanja so razdeljena na dva dela:

1. del - Vprašanja o intervjuju s panjem (osnovno)

Ta prvi del zajema osnovna vprašanja in odgovore o panju.

1. Navedite različne sestavne dele arhitekture panja?

Odgovor:
Spodaj je naštetih pet glavnih komponent v arhitekturi Hive:
• Uporabniški vmesnik (UI): deluje kot komunikator med uporabniki in gonilniki, ko uporabnik napiše poizvedbe, ki jih uporabniški vmesnik sprejme in zažene na gonilnik, na voljo sta dve vrsti vmesnika, in sicer sta ukazna vrstica in vmesnik GUI.
• Gonilnik: vzdržuje življenjski cikel poizvedbe HiveQL. Prejema poizvedbe iz uporabniškega vmesnika in ustvari sejo za obdelavo poizvedbe.
• Prevajalnik: Prejema poizvedbene načrte od gonilnika in od Metastora dobi potrebne informacije za izvedbo načrta.
• Metastore: shranjuje podatke o podatkih kot tabela; lahko je notranja ali zunanja tabela. Podatke o metapodatkih pošlje prevajalniku, da izvede poizvedbo.
• Execute Engine: Hive servis bo rezultat izvedel v motorju za izvajanje; izvede poizvedbo v MapReduce za obdelavo podatkov. Za vse te komponente je odgovoren za nadzor vsake stopnje.

2. Kateri so različni načini delovanja, ki jih Hive lahko deluje?

Odgovor:
To so pogosta vprašanja o intervjuju za panj, ki so jih postavila v intervjuju. Panj lahko deluje na dva načina glede na velikost podatkov,
Ti načini so:
• Način zmanjšanja zemljevidov
• Lokalni način

3. Kateri so scenariji, kjer se lahko uporablja Hive in ga ni mogoče uporabiti?

Odgovor :
Ko ustvarjate aplikacije za shranjevanje podatkov, ko so vaši podatki statični, če aplikacija ne potrebuje velikega odzivnega časa, ko je obseg podatkov velik, ko se podatki ne spreminjajo hitro in ko namesto skript uporabljate poizvedbe. Hive podpira samo transakcijo OLAP, ni primeren za transakcije OLTP.

Pojdimo na naslednja vprašanja o intervjuju za panj.

4. Kateri so datoteke, ki jih Hive podpira? Navedite vrsto aplikacij, ki jih podpira HIVE?

Odgovor:
Hive privzeto podpira obliko besedilne datoteke, podpira pa tudi format binarne datoteke, kot so datoteka zaporedja, datoteke ORC, datoteke parketa, datoteke Avro Data.
• Zaporedna datoteka: Na splošno je datoteka binarne oblike, ki jo je mogoče stisniti in jo je mogoče razločiti.
• ORC datoteka: Optimizirana datoteka stolpcev v stolpcu je posneta v stolpcu in v stolpcu shranjena datoteka.
• Parketna datoteka: Dvojna datoteka, usmerjena v stolpce, je zelo učinkovita pri velikih poizvedbah.
• Podatkovna datoteka Avro: Je enaka obliki datoteke z zaporednimi datotekami, ki je delljiva, stisljiva in vrstica usmerjena datoteka.
Največja dovoljena velikost vrstnih podatkov v panju je 2 GB.

Hive je okvir za shranjevanje podatkov, ki je primeren za tiste aplikacije, ki so napisane v Java, C ++, PHP, Python ali Ruby.

5. Katere vrste tabel so na voljo v panju?

Odgovor:
V aplikaciji Hive sta dve vrsti tabele, to sta:
• Upravljane tabele: Podatki in shema nadzirajo panj.
• Zunanje tabele: Samo panja upravlja panj.

2. del - Vprašanja o intervjuju s panjem (napredno)

Oglejmo si zdaj napredna vprašanja o intervjuju za panj.

6. Kaj je Metastore v panju? Naštejte in razložite različne vrste konfiguracije Hive Metastores?

Odgovor:
Metastore v panju se uporablja za shranjevanje podatkov o metapodatkih, je osrednje skladišče v panju. Omogoča shranjevanje podatkov metapodatkov v zunanjo bazo podatkov. Hive shranjuje podatke o metapodatkih v bazo podatkov Derby, privzeto pa jih je mogoče shraniti tudi v drugih bazah podatkov, kot so Oracle, MySql itd.
Obstajajo tri vrste konfiguracije Metastore, in sicer:
• vdelana metastora: je privzeti način; lahko lokalno dostopa do knjižnice Hive, vse operacije ukazne vrstice se izvajajo v vgrajenem načinu. Storitev Hive, storitev metastore in baza podatkov delujejo v istem JVM.
• Lokalna metastora: shranjuje podatke v zunanjo bazo podatkov, kot sta MySql ali Oracle. Storitev Hive in metastore deluje v istem JVM, povezuje se z bazo podatkov, ki deluje v ločenem JVM.
• Oddaljena metastora: Oddaljeni način uporablja za izvajanje poizvedb, tukaj storitev metastore in panj deluje v ločenem JVM. Za povečanje razpoložljivosti lahko imate več strežnikov metastore.

7. Kaj je procesor poizvedbe? Katere so različne komponente procesorja poizvedb?

Odgovor:
To so najpogostejša vprašanja o intervjuju s panjem v intervjuju. Hive Query Processor se uporablja za pretvorbo SQL v MapReduce opravila. Glede na vrstni red odvisnosti se opravila izvajajo.
Spodaj so navedene komponente procesorja za obdelavo poizvedb:
• Semantični analizator
• UDF in UDAF
• Optimizator
• Operater
• Parser
• Izvedbeni motor
• Preverjanje vrste
• Izdelava logičnega načrta
• Generacija fizičnega načrta

8. Kakšna je funkcionalnost objekta-inšpektorja v panju?

Odgovor:
Sestavljen je iz Pive, ki se uporablja za identifikacijo strukture posameznih stolpcev in notranje strukture predmetov vrstic. Do zapletenih predmetov, ki so shranjeni v več formatih, je možno dostopati s pomočjo Predmetnega inšpektorja v panju.
Objekt-inšpektor bo opredelil strukturo predmeta in načine dostopa do notranjih polj znotraj objekta.

Pojdimo na naslednja vprašanja o intervjuju za panj.

9. Kakšni so različni načini za povezavo aplikacij s Hive strežnikom?

Odgovor:
Obstajajo trije načini za povezavo aplikacij s Hive strežnikom:
• Skrbniški odjemalec: uporablja se za izvajanje vseh ukazov panja z uporabo drugega programskega jezika, kot so Java, C ++, PHP, Python ali Ruby.
• gonilnik ODBC: to bo podprlo protokol ODBC
• Gonilnik JDBC: To podpira protokol JDBC

10. Kakšni so privzeti razredi za branje in pisanje v panju?

Odgovor:
Spodaj so razredi branja in pisanja, ki so na voljo v Pive:
• TextInputFormat - Ta razred se uporablja za branje podatkov v navadni besedilni obliki.
• HiveIgnoreKeyTextOutputFormat - Ta razred se uporablja za pisanje podatkov v navadni besedilni obliki.
• SequenceFileInputFormat - Ta razred se uporablja za branje podatkov v datotečni obliki Hadoop Sequence.
• SequenceFileOutputFormat - Ta razred se uporablja za pisanje podatkov v formatu datoteke Hadoop Sequence.

Priporočeni članek

To je vodnik za seznam vprašanj in odgovorov za panj, da lahko kandidat brez težav razreši ta vprašanja za intervju. Če želite izvedeti več, si oglejte tudi naslednje članke -

  1. Najboljših 5 uporabnih vprašanj in odgovorov o DBA
  2. 12 najbolj osupljivih vprašanj in odgovorov za intervju z GitHubom
  3. 15 najpomembnejših Ruby-jevih vprašanj in odgovorov
  4. Top 10 najbolj uporabnih vprašanj o intervjuju za HBase

Kategorija: