Uvod v Intervju Vprašanja in odgovori z inženirjem podatkov

Podatkovni inženiring je izraz, kjer se ga vsi zavedajo in je na področju Big Data precej priljubljen. Podatkovni inženiring se nanaša na podatkovno infrastrukturo ali arhitekturo podatkov. Surove podatke, ustvarjene iz različnih virov, kot so družbeni mediji, mobilni telefoni, www (internet), je treba pretvoriti, očistiti, profilirati in združiti za poslovne potrebe. Ti surovi podatki se imenujejo tudi kot Dark Data. Praksa načrtovanja, arhitekture in izvajanja sistema za obdelavo podatkov pomaga pri pretvorbi podatkov v ustrezne informacije ali nabor podatkov, takšne informacije ali nabor podatkov imenujemo Data Engineering.

Spodaj je seznam najboljših vprašanj in odgovorov v intervjuju Data Engineer za leto 2019:

Če iščete službo, ki je povezana z Data Engineerjem, se morate pripraviti na vprašanja o intervjuju za leto 2019 Data Engineer. Čeprav so vsa vprašanja o intervjuju s podatkovnim inženirjem različna, obseg dela pa je tudi drugačen, vam lahko pomagamo z vrhunskimi vprašanji za inženirje Data Engineer z odgovori, ki vam bodo pomagali narediti preskok in doseči svoj uspeh v intervjuju Data Engineer.

1. Kaj je podatkovni inženiring?

Odgovor:
Podatkovni inženiring je izraz, ki je na področju velikih podatkov zelo priljubljen in se nanaša predvsem na podatkovno infrastrukturo ali arhitekturo podatkov.
Podatki, ki jih ustvarjajo številni viri, kot so družbeni mediji, mobilni telefoni, www (internet), so surovi podatki. Treba ga je preoblikovati, očistiti, profilirati in združiti za poslovne potrebe. Te surove podatke lahko imenujemo "Temni podatki", ki jih bomo osvetlili, da bodo temni podatki uporabni. Praksa oblikovanja, arhitekture in izvajanja sistema za obdelavo podatkov, ki bo pripomogel k pretvorbi podatkov v koristne informacije, se imenuje Data Engineering.

2. Pojasnite vsakodnevno delo podatkovnega inženirja?

Odgovor:
Dnevno opravilo inženirja podatkov je sestavljeno iz:
a. ravnanje z vodenjem podatkov v organizaciji
b. ravnanje in vzdrževanje izvornih sistemov podatkov in območja uprizarjanja
c. izvajanje ETL ali ELT in transformacija podatkov
d. poenostavitev čiščenja podatkov in izboljšanje podvajanja in oblikovanja podatkov
e. izdelava ad hoc podatkovnih poizvedb in pridobivanje podatkov
Glejte spodaj vizualizacijo, ki obvešča o stvareh, na katerih deluje podatkovni inženir: -

3. Ali imate izkušnje z modeliranjem podatkov?

Odgovor:
Lahko rečemo, da je delal na projektu za stranko za finančno / zdravstveno zavarovanje, kjer so uporabljali orodja ETL, kot so Informatica / Talend / Pentaho itd., Za preoblikovanje in obdelavo podatkov, pridobljenih iz baze podatkov MySQL / RDS / SQL, in pošiljajo te podatke posredujte prodajalcem, ki lahko pomagajo povečati njihove prihodke. To lahko pokažemo pod visokokakovostno arhitekturo podatkovnega modela. Sestavljen je iz primarnega ključa, entitete, atributa, odnosa, omejitev itd.

4. Katere so različne vrste oblikovalskih shem v modeliranju podatkov? Pojasnite s primerom?

Odgovor:
Obstajata dve vrsti shem pri modeliranju podatkov:
a. Shema zvezd
Ta shema je razdeljena na dve: ena je tabela dejstev, druga pa tabela dimenzij, kjer so vse tabele dimenzij povezane s tabelo dejstev. Tabela tujih ključev se v resnici nanaša na primarne ključe, ki so prisotni v dimenzijskih tabelah. Glejte spodaj arhitekturo sheme zvezd:

b. Shema snežinke
V tej shemi se raven normalizacije poveča, tukaj bo tabela dejstev ostala enaka kot shema zvezd, tukaj so tabele dimenzij normalizirane. Zaradi številnih plasti tabel dimenzij je videti kot snežinka, kar je ime shema snežinke. Glej spodnjo arhitekturo: -

5. Katero orodje ETL uporabljate in kako se to najbolje primerja z drugimi?

Odgovor:
Lahko rečemo, da je Informatica kot orodje ETL uporabil zaradi številnih točk, najprej in predvsem to, da je po Gartnerjevem čarobnem kvadrantu za orodja za integracijo podatkov Informatica vodilna že deseto leto zapored. Je enostaven za uporabo in učenje ter ima funkcije za povezovanje z različnimi vrstami izvornih podatkov in vrst podatkov, sestavnimi deli in funkcijami, ki jih je mogoče ponovno uporabiti, zaradi katerih so najbolj priljubljeni za razvijalce ETL. Ima tudi svoj planer, kar je še ena prednost, kadar morajo druga orodja ETL uporabljati zunanji planer za načrtovanje opravil.

6. Katere tehnologije / programski jezik bi moral imeti / Naučiti se biti inženir podatkov?

Odgovor:
Matematika (linearna algebra in verjetnost)
Statistika (zbirna statistika)
Tehnike strojnega učenja
R in jeziki SAS
SQL baze podatkov, Hive QL
Python (večinoma uporabljen)
Poleg teh bi morali imeti tudi bazo podatkov o reševanju problemov, analitično in arhitekturno znanje.

7. S katerimi težavami se srečujejo inženirji podatkov?

Odgovor:
1. Vključevanje v realnem času / Stalna integracija
2. Shranjevanje ogromne količine podatkov je ena težava, informacije iz teh podatkov pa drugo vprašanje.
3. Katera orodja je mogoče uporabiti, kar bo prineslo najboljše delovanje, skladiščenje, učinkovitost in rezultate.
4. Ali obsega lestvica za shranjevanje? Predpostavimo, kako vedeti, koliko časa bo za obdelavo celotnega niza podatkov?
5. Glede na procesorje in konfiguracijo RAM-a
6. Kako se spoprijeti z okvarami, je napaka toleranca tam ali ne?

8. Kako se Data Architect razlikuje od Data Engineerja?

Odgovor:
Data Architect je oseba za upravljanje podatkov, zlasti kadar se ukvarja z različnim številom različnih virov podatkov. Morali bi imeti poglobljeno znanje o tem, kako baza podatkov deluje, kako se podatki nanašajo na poslovne težave in kako bodo spremembe motile uporabo podatkov organizacije in potem bo arhitekt podatkov manipuliral / preoblikoval arhitekturo podatkov v skladu z njimi.
Glavna odgovornost Data Architect-a je delo v skladišču podatkov, razvoj arhitekture podatkov ali podatkovnega središča / skladišča podatkov.
Ker Dataženir pomaga pri namestitvi rešitev za shranjevanje podatkov, modeliranju podatkov, razvoju in testiranju arhitekture baz podatkov.

9. Opišite čas, ko ste našli nov primer uporabe obstoječe baze podatkov, ki je pozitivno vplival na poslovanje?

Odgovor:
Medtem ko v dobi velikih podatkov SQL manjka spodnjih funkcij:
a. RDBMS so shemo usmerjeni DB, zato je bolje za strukturirane podatke, ne za polstrukturirane ali nestrukturirane podatke.
b. Ne more obdelati nepredvidljivih in nestrukturiranih podatkov.
c. To ni horizontalno razširljivo, torej vzporedna izvedba in shranjevanje v SQL ni mogoče.
d. Ko težave s številnimi uporabniki narastejo, je pri težavah z zmogljivostjo trpel.
e. V glavnem se uporablja za spletno obdelavo transakcij.

Za premagovanje teh pomanjkljivosti lahko uporabimo NoSQL DB, tj. Ne samo SQL.
V projektu lahko torej uporabljamo različne vrste NoSQL DB, kot so Cassandra, Mongo DB, Graph DB, HBase itd.

10. Ali imate izkušnje z delom v računalniškem okolju? Katere prednosti vidite v enem?

Odgovor:
Lahko bi rekli, da Cloud Cloud Computing Environment je pripravljen premakniti okolje za proizvodnjo, razvoj in testiranje, ne da bi razmišljal o integraciji več primerkov / Linux / okenskih strežnikov skupaj. Na trgu obstajajo različne storitve računalništva v oblaku, kot so AWS (spletne storitve Amazon), Azure (Microsoft), GCP (Google Cloud Platform). Storitev računalništva v oblaku ponuja spodaj naštete funkcije, kot so fleksibilnost, tj. Okolje se bo povečalo glede na potrebe, obnova po nesrečah s pomočjo varnostnih kopij in posnetkov, delo od kjer koli z VPN-ji, varnim okoljem in okolju prijazno, saj deluje na blagovni strojni opremi, tj. Računalnikih splošne namene, ki so nizki.

Zaključek

V zgornjem blogu smo obdržali najpogostejša vprašanja o intervjuju v programu Data Engineer in kako lahko na to odgovorimo s podajanjem točk.

Priporočen članek:

To je bilo izčrpno vodilo za vprašanja o intervjujih in inženirjev za obdelavo podatkov, tako da lahko kandidat brez težav razreši ta vprašanja o intervjuju. Ta članek je sestavljen iz vseh najboljših vprašanj in odgovorov za intervju z inženirjem podatkov. Če želite izvedeti več, si oglejte tudi naslednje članke -

  1. Najpomembnejši Azure Paas proti Iaasu
  2. Vprašanja o intervjuju z Big Data
  3. 5 najpomembnejših vprašanj o intervjuju z elastičnim iskanjem
  4. PIG Intervju Vprašanja in odgovori
  5. Top 5 najbolj dragocenih vprašanj o intervjuju za znanost o podatkih

Kategorija: