Uvedba procesa ETL

ETL je eden od pomembnih procesov, ki jih zahteva Business Intelligence. Business Intelligence se opira na podatke, shranjene v skladiščih podatkov, iz katerih se ustvari veliko analiz in poročil, kar pomaga pri oblikovanju učinkovitejših strategij in vodi do taktičnih in operativnih vpogledov in odločanja.

ETL se nanaša na postopek ekstrahiranja, preoblikovanja in nalaganja. Gre za nekakšen korak integracije podatkov, kjer se podatki, ki prihajajo iz različnih virov, pridobivajo in pošiljajo v podatkovna skladišča. Podatki se pridobivajo iz različnih virov, ki jih najprej pretvorimo v pretvorbo v določeno obliko glede na poslovne zahteve. Različna orodja, ki pomagajo pri opravljanju teh nalog, so -

  • IBM DataStage
  • Abinitio
  • Informatica
  • Tableau
  • Talend

Postopek ETL

Kako deluje?

Proces ETL je postopek v treh korakih, ki se začne z izvlečenjem podatkov iz različnih virov podatkov, nato pa se surovi podatki podvržejo različnim preobrazbam, da so primerni za shranjevanje v shrambi podatkov in ga naložijo v shrambe podatkov v želeni obliki in ga pripravijo za analiza.

1. korak: Izvleček

Ta korak se nanaša na pridobivanje potrebnih podatkov iz različnih virov, ki so prisotni v različnih oblikah, kot so XML, Hadoop datoteke, Flat Files, JSON itd. Izvlečeni podatki so shranjeni v območju uprizoritve, kjer se izvajajo nadaljnje preobrazbe. Tako se podatki temeljito preverijo, preden jih premaknete v podatkovna skladišča, v nasprotnem primeru bodo spremembe v skladiščih podatkov izziv.

Pred začetkom črpanja podatkov je potreben ustrezen zemljevid podatkov med virom in ciljem, ker mora ETL postopek medsebojno komunicirati z različnimi sistemi, kot so Oracle, Hardware, Mainframe, sistemi v realnem času, kot so bankomati, Hadoop itd., Medtem ko pridobivajo podatke iz teh sistemov. .

Opomba - Vendar je treba paziti, da ti sistemi med ekstrakcijo ne smejo biti prizadeti.

Strategije pridobivanja podatkov
  • Popolna ekstrakcija: temu sledi, ko se celotni podatki iz virov naložijo v podatkovna skladišča, v katerih je razvidno, da se bodisi skladišče podatkov prvič naseli ali ni bila izdelana nobena strategija za pridobivanje podatkov.
  • Delna ekstrakcija (z obveščanjem o posodobitvah): Ta strategija je znana tudi delta, kjer se pridobivajo samo spremenjeni podatki in posodabljajo podatkovna skladišča
  • Delna ekstrakcija (brez obveščanja o posodobitvah): Ta strategija se nanaša na pridobivanje določenih potrebnih podatkov iz virov glede na obremenitev v shrambah podatkov, namesto da izvleče celotne podatke.

2. korak: Preoblikovanje

Ta korak je najpomembnejši korak ETL. V tem koraku se izvede veliko preobrazb, da se podatki pripravijo za nalaganje v podatkovnih skladiščih z uporabo spodnjih transformacij: -

A. Osnovne preobrazbe: Te pretvorbe se uporabljajo v vsakem scenariju, saj so osnovne potrebe, medtem ko nalagajo podatke, ki so bili izvzeti iz različnih virov, v podatkovna skladišča

  • Čiščenje ali obogatitev podatkov: Nanaša se na čiščenje nezaželenih podatkov iz območja odpravljanja, da se napačni podatki ne naložijo iz podatkovnih skladišč.
  • Filtriranje: Tu filtriramo zahtevane podatke iz velike količine prisotnih podatkov glede na poslovne zahteve. Na primer, za ustvarjanje poročil o prodaji je potreben le zapis o prodaji za določeno leto.
  • Konsolidacija: Pridobljeni podatki se pred nalaganjem v podatkovna skladišča utrdijo v želeni obliki.
  • Standardizacije: Podatkovna polja se preoblikujejo tako, da jih pretvorijo v enako zahtevano obliko, na primer, podatkovno polje mora biti določeno kot MM / DD / LLLL.

B. Napredne preobrazbe: Te vrste preobrazb so specifične za poslovne zahteve.

  • Pridružitev: V tej operaciji se podatki iz dveh ali več virov združijo in ustvarijo podatke samo z želenimi stolpci z vrsticami, ki so med seboj povezane
  • Preverjanje veljavnosti praga podatkov: Vrednosti, ki so prisotne v različnih poljih, se preverijo, če so pravilne ali ne, tako da pri bančnih podatkih ni nična številka bančnega računa.
  • Uporabite iskanje za združevanje podatkov: za pridobivanje določenih informacij se uporabljajo različne ravne datoteke ali druge datoteke z izvajanjem operacije iskanja na tem.
  • Uporaba kakršnih koli zapletenih potrditev podatkov: Veliko kompleksnih preverjanj se uporablja za črpanje veljavnih podatkov samo iz izvornih sistemov.
  • Izračunane in izpeljane vrednosti: Za pretvorbo podatkov v nekatere zahtevane podatke se uporabljajo različni izračuni
  • Podvajanje: Podvojeni podatki, ki prihajajo iz izvornih sistemov, se analizirajo in odstranijo, preden jih naložijo v podatkovna skladišča.
  • Prestrukturiranje tipk: Pri zajemanju počasi spreminjajočih se podatkov je treba ustvariti različne nadomestne ključe, da bodo podatki strukturirani v želeni obliki.

Opomba - MPP-Massive Parallel Processing se včasih uporablja za izvajanje nekaterih osnovnih operacij, kot sta filtriranje ali čiščenje podatkov v območju uprizoritve za hitrejšo obdelavo velike količine podatkov.

3. korak: Naložite

Ta korak se nanaša na nalaganje pretvorjenih podatkov v podatkovno skladišče, od koder jih je mogoče uporabiti za generiranje številnih analitičnih odločitev in poročanja.

1. Začetna obremenitev: Ta vrsta obremenitve se pojavi pri prvem nalaganju podatkov v shrambe podatkov.

2. Postopno nalaganje: To je vrsta obremenitve, ki se izvaja za občasno posodabljanje podatkovnega skladišča s spremembami, ki se pojavljajo v podatkih izvornega sistema.

3. Popolna osvežitev: Ta vrsta obremenitve se nanaša na situacijo, ko se popolni podatki tabele izbrišejo in naložijo sveži podatki.

Nato podatkovno skladišče omogoča funkcije OLAP ali OLTP.

Slabosti procesa ETL

  1. Povečanje podatkov - obstaja omejitev podatkov, ki jih orodje ETL pridobiva iz različnih virov in jih potisne v podatkovna skladišča. Tako s povečanjem podatkov postane delo z orodjem ETL in skladiščem podatkov okorno.
  2. Prilagoditev - to se nanaša na hitre in učinkovite rešitve ali odzive na podatke, ki jih ustvarijo izvorni sistemi. Toda uporaba tukaj orodja ETL upočasni ta postopek.
  3. Draga - Uporaba podatkovnega skladišča za shranjevanje vedno večje količine podatkov, ki se občasno ustvarjajo, je strošek, ki ga mora organizacija plačati.

Zaključek - Postopek ETL

Orodje ETL obsega procese pridobivanja, preoblikovanja in nalaganja, kjer pomaga pri pridobivanju informacij iz podatkov, zbranih iz različnih izvornih sistemov. Podatki iz izvornega sistema lahko prihajajo v poljubnih oblikah in se lahko naložijo v poljubno obliko v skladiščih podatkov, zato mora orodje ETL podpirati povezljivost z vsemi ti formati.

Priporočeni članki

To je vodnik za postopek ETL. Tukaj razpravljamo o uvodu, Kako deluje ?, Orodja ETL in njegove pomanjkljivosti. Obiščite lahko tudi druge naše predlagane članke, če želite izvedeti več -

  1. Orodja ETL Informatica
  2. Orodja za testiranje ETL
  3. Kaj je ETL?
  4. Kaj je ETL testiranje?

Kategorija: