Uvod v Sqoop Intervju Vprašanja in odgovori

Sqoop je odprtokodno orodje za prenos podatkov, orodje Sqoop prenaša podatke med Hadoop ekosistemom in relacijskimi bazami podatkovnih strežnikov (RDBMS). Podatke uvaža v datotečni sistem Hadoop (HDFS), iz relacijskih baz podatkov, kot so Oracle, MySQL itd., Tudi podatke iz datoteke Hadoop datoteko System izvozi v RDMS.

Spodaj je 15 pomembnih vprašanj in odgovorov za Sqoop za leto 2019:

Torej ste končno našli svojo sanjsko zaposlitev v Sqoopu, vendar se sprašujete, kako polomiti intervju s Sqoopom in kaj bi lahko bilo verjetno vprašanje Sqoop Interview 2019. Vsak intervju je drugačen in tudi obseg dela je drugačen. Upoštevajoč to, da smo zasnovali najpogostejša vprašanja in odgovore za intervju Sqoop, ki vam bodo pomagali do uspeha v intervjuju.

Ta vprašanja so razdeljena na dva dela:

1. del - Sqoop Intervju Vprašanja (osnovno)

Ta prvi del zajema osnovna vprašanja in odgovore za intervju s Sqoop-om.

1. Določite Sqoop in zakaj uporabljamo Sqoop?

Odgovor:
Sqoop je odprtokodno orodje za prenos podatkov, ki je zasnovano za prenos podatkov med ekosistemom Hadoop in strežniki relacijskih podatkovnih baz (RDBMS). Sqoop se uporablja za uvoz podatkov iz relacijskih baz podatkov, kot so Oracle, MySQL itd., V datotečni sistem Hadoop (HDFS) in tudi za izvoz podatkov iz datotečnega sistema Hadoop v relacijske baze podatkov.

2. Kakšne so značilnosti Sqoopa?

Odgovor:
Spodaj so različne funkcije, ki jih podpira Sqoop -

  1. Nosilnost
  2. Popolno nalaganje in postopno nalaganje
  3. Tehnike stiskanja podatkov
  4. Uvoz rezultatov poizvedb SQL
  5. Podatkovni konektorji za vse glavne baze podatkov
  6. Podpora za neposredno nalaganje podatkov v datotečne sisteme Hadoop
  7. Varnostne konfiguracije, kot je Kerberos
  8. Sočasne funkcije uvoza ali izvoza

Pojdimo na naslednja vprašanja o intervjuju Sqoop.

3. Poimenujte relacijske baze podatkov in vire sistema Hadoop v sistemu Sqoop?

Odgovor:
Sqoop trenutno podpira MySQL, PostgreSQL, Oracle, MSSQL, Teradata in IBM-ov Netezza kot del podatkovnih baz odnosov.

Trenutno podprte ciljne storitve sistema Hadoop Eco so HDFC, Hive, HBase, H Katalog in Accumulo.

Sqoop kot privzeto bazo podatkov uporablja MySQL.

4. Kako deluje Sqoop?

Odgovor:
To so pogosta vprašanja o intervjuju Sqoop, postavljena v intervjuju. Za izvajanje prenosa podatkov Sqoop uporablja ukaze za izvoz in uvoz. Program zmanjševanja zemljevidov bo v Sqoopu uporabljen interno za shranjevanje nabora v HDFS. Ukazi bodo povezani z nalogami Zemljevida za pridobivanje podatkov iz relacijskih baz podatkov; Zmanjšanje naloge bo prevzelo odgovornost za namestitev pridobljenih podatkov v ciljne kraje (HDFS / HBase / Pive)

Sqoop uporablja tudi različne priključke API za povezavo z več bazami podatkov. Sqoop ponuja tudi možnost izdelave konektorjev po meri za izpolnjevanje posebnih zahtev.

Poglejmo spodnje vzorčne ukaze za uvoz in izvoz

Ukaz za povezavo z bazo podatkov MySQL za uvoz podatkov iz tabele 'Log'

sqoop import –connect jdbc: mysql: // localhost / –ime uporabnika –password –table –m 1
sqoop uvoz –povezavo jdbc: mysql: // localhost / mytestdb –korjen uporabniškega imena –pazalnik admin123 –beležnik –m 1

Ukaz za izvoz podatkov iz HDFS v relacijsko bazo podatkov

Izvoz sqoop –priključi jdbc: mysql: // localhost / sqoop_export – izvoz izvoz-dir / sqoop / emp_last / del-m-00000 –dodatni ključ
Izvoz sqoop –povezava jdbc: mysql: // localhost / sqoop_export – tabela log_table – izvoz-dir / sqoop / podatki / foler1 / del-m-00000

5. Kaj je Sqoop Metastore? Pojasnite?

Odgovor:
Metastore Sqoop je orodje, ki je na voljo v Sqoopu in ki bo uporabljeno za konfiguriranje aplikacije Sqoop za omogočanje gostovanja skupnega skladišča v obliki metapodatkov. Ta Metastore se lahko uporablja za izvajanje opravil in upravljanje številnih uporabnikov na podlagi vlog in dejavnosti uporabnika. Vsi uporabniki lahko hkrati izvajajo več nalog ali operacij za učinkovito doseganje nalog. Metastore Sqoop bo privzeto izvedeno kot predstavitev v pomnilniku. Ko je opravilo ustvarjeno znotraj Sqoop-a, je definicija opravila shranjena v Metastore-ju in bo po potrebi navedena z uporabo opravil Sqoop.

6. Katere oblike datotek podpira Sqoop med uvozom podatkov?

Odgovor:
Sqoop za uvoz podatkov uporablja dve datotečni obliki. To so: - razmejena oblika preskusne datoteke in oblika datoteke zaporedja.

Format datoteke z razmejitvijo besedila: Oblikovana oblika besedila je privzeta oblika datoteke za uvoz. Še vedno lahko izrecno določimo z argumentom –astekstil. Prav tako bo argument posredoval znake, ki ločujejo med vrsticami in stolpci.

Zaporedna oblika datoteke : Ta oblika datoteke lahko rečemo, da je oblika binarne datoteke. Ta vrsta zapisov datotek formatov je shranjena v posebnih podatkovnih vrstah zapisa, ki so izpostavljeni kot Java Class.

Pojdimo na naslednja vprašanja o intervjuju Sqoop.

7. Ali lahko v sqopu nadzorujemo več preslikav? Če je odgovor pritrdilen, kako?

Odgovor:
Da, lahko število krmilnikov v Sqoopu nadzorujemo tako, da v ukazu sqo določimo parameter "-num-mappers". Ta parameter lahko nadzoruje število opravil na zemljevidu, kar pomeni le stopnjo vzporednosti, ki jo uporablja sqoop. Številka bo določena glede na zahtevo.

Sintaksa: Uporabite te zastavice za nadzor števila preslikav: m, -num - mappers

2. del - Sqoop Intervju Vprašanja (napredno)

Oglejmo si zdaj napredna vprašanja o intervjuju Sqoop.

8. Kaj je Sqoop-spajanje in pojasni njegovo uporabo?

Odgovor:
Sqoop spajanje je orodje, ki združuje dve različni nabori podatkov, ki vzdržujejo edino različico tako, da v novejšo datoteko vpišejo vnose v starejši različici nabora podatkov, tako da postanejo najnovejši nabor različic. Zgodi se postopek sploščitve med združevanjem dveh različnih nizov podatkov, ki podatke ohranjajo brez izgub ter z učinkovitostjo in varnostjo. Za izvedbo te operacije se bo uporabil ukaz ključa spajanja, kot je „-geraj-ključ“

9. Kakšne so razlike med Sqoop, flume in distcp?

Odgovor:
Za prenos podatkov se uporabljata Distcp in Sqoop. Sqoop se uporablja za prenos katere koli vrste podatkov iz ene skupine Hadoop v drugo gručo, medtem ko Sqoop podatke prenaša med relacijske baze podatkov in Hadoop ekosistema, kot so Hive, HDFS in HBase, itd. Toda obe metodi uporabljata isti pristop za kopiranje podatkov, ki je vlečenje / prenos.

Flume je razdelil orodje, ki sledi arhitekturi na osnovi agentov, za pretakanje dnevnikov v ekosistem Hadoop. Medtem ko je Sqoop arhitektura, ki temelji na konektorjih.

Flume zbira in združuje ogromno količino podatkov dnevnika. Flume lahko zbira podatke iz različnih vrst virov; ne upošteva sheme ali strukturiranih / nestrukturiranih podatkov. Flume lahko potegne poljubno vrsto podatkov. Medtem ko lahko Sqoop uvaža samo podatke relacijske baze podatkov, je za sqoop obdelovanje sheme obvezno. Na splošno je za gibanje velikih delovnih obremenitev najboljša možnost flume.

Pojdimo na naslednja vprašanja o intervjuju Sqoop.

10. Kateri viri podatkov podpirajo Apache Sqoop?

Odgovor:
Spodaj so različni viri podatkov iz različnih aplikacij, ki jih podpira Apache Sqoop:

  1. Panj
  2. HBase
  3. Hadoop porazdeljeni datotečni sistem (HDFS)
  4. HCatalog
  5. Akumulacija

11. Kateri ukazi / funkcije v Sqoopu se najpogosteje uporabljajo?

Odgovor:

To so napredna vprašanja o intervjuju Sqoop, ki so jih postavila v intervjuju. Seznam osnovnih ukazov, ki se uporabljajo v Sqoopu, je naslednji:

Codegen -Codegen se uporablja za ustvarjanje kode za komunikacijo z zapisi v bazi.

Eval -Sqoop Eval pomaga pri izvajanju vzorčnih poizvedb SQL proti bazam podatkov in zagotavlja rezultate na konzoli.

Pomoč - Pomoč seznam razpoložljivih ukazov

Uvoz -Uvoz bo tabelo uvozil v ekosistem Hadoop

Export -Export se uporablja za izvoz HDFS podatkov v relacijske baze podatkov.

Ustvari-panj-tabelo - Ta ukaz je uporaben za uvoz definicije tabel v panj

Uvozi vse tabele -Uvozi vse tabele uvozi tabele iz obrazcev relacijske baze podatkov v HDFS.

Seznam podatkovnih baz - Naštela bo vse baze podatkov na strežniku.

Seznam tabel - Seznam vseh tabel v bazi podatkov.

Različice - Prikazane bodo informacije o različici.

Funkcije - vzporedni uvoz / izvoz, polna obremenitev, postopno nalaganje, polna obremenitev, primerjava, konektorji za baze podatkov RDBMS, varnostna integracija Kerberos, nalaganje podatkov neposredno v HDFS (panj / HBase)

12. Pojasnite najboljše prakse med uvozom tabel iz MySQL ali katere koli druge baze podatkov s pomočjo Sqoopa?

Odgovor:
Med uvozom tabel iz MySQL bi se morali prepričati o nekaj stvareh, kot so avtentikacija in avtorizacija na ciljni strežnik in baze podatkov. Poskrbeti moramo, da smo v bazah podatkov, do katerih bomo dostopali, zagotovili potrebne privilegije in se tudi prepričali o ločljivosti imena gostitelja, ko se povežemo z izvornimi in ciljnimi imeni gostiteljev. Če nimamo potrebnega dovoljenja, bomo med povezavo z bazo podatkov dobili izjemo odpovedi povezave.

13. Kako posodabljate že izvožene podatke ali vrstice?

Odgovor:
Za posodobitev vrstic, ki so že izvožene na cilj, lahko uporabimo parameter „–posodobi-ključ“. V tem je uporabljen seznam stolpcev, ločenih z vejicami, ki enolično identificira vrstico, vsi ti stolpci pa so uporabljeni v klavzuli WHERE ustvarjene poizvedbe UPDATE. SET poizvedba bo poskrbela za vse ostale stolpce tabel.

Pojdimo na naslednja vprašanja o intervjuju Sqoop.

14. Kako konfigurirati in namestiti gonilnik JDBC v Apache Sqoop?

Odgovor:
Gonilnike JDB v Apache Sqoop lahko konfigurirate na podlagi ponudnika Hadoop, kot sta Cloudera ali Hortonworks, kjer se njegova konfiguracija nekoliko razlikuje glede na ponudnika Hadoop. JDBC v Clouderi lahko konfigurirate tako, da ustvarite mapo knjižnice, kot je / var / lib /. To lahko storite za katero koli knjižnico tretjih oseb, ki jo je treba konfigurirati v skladu z zahtevo. Na ta način je mogoče konfigurirati katero koli vrsto baze podatkov s svojim gonilnikom JDBC. Poleg gonilnika JDBC Apache Sqoop potrebuje konektor za vzpostavitev povezave med različnimi relacijskimi bazami podatkov. Glavne komponente, potrebne za vzpostavitev povezave z bazami podatkov, so prek gonilnika in priključka določenega ponudnika baz podatkov.

15. Kaj je klavzula o deljenju in kdaj jo uporabljamo?

Odgovor:
Parameter ločevanja je namenjen rezanju podatkov, ki jih je treba uvoziti v več vzporednih opravil. S tem parametrom lahko določimo imena stolpca, to je ime stolpcev, na podlagi katerega bo sqoop delil podatke, ki jih je treba uvoziti, na več kosov, ki se bodo izvajali vzporedno. To je ena od tehnik za prilagajanje zmogljivosti v Sqoopu.

Priporočeni članki

To je vodnik za seznam vprašanj in odgovorov za intervju z Sqoop, tako da lahko kandidat brez težav razreši ta vprašanja o intervjuju za Sqoop. Če želite izvedeti več, si oglejte tudi naslednje članke -

  1. Hadoop proti Teradata -Ko je koristen
  2. 13 Neverjetna vprašanja o intervjuju z bazo podatkov
  3. Top 10 najbolj uporabnih vprašanj o intervjuju za HBase
  4. 10 najbolj osupljivih vprašanj za intervju z PHP za izkušene
  5. Spoznajte prvih 5 uporabnih vprašanj o intervjuju z DBA

Kategorija: