Uvod v integracijo podatkov Talend

Talend integracija podatkov pomeni združevanje podatkov iz različnih virov in njihovo združevanje v en sam pogled, da dobite nekaj pomembnih podatkov iz tistih, ki lahko podjetju ali organizaciji pomagajo izboljšati svoje poslovanje z analizo teh podatkov. Integracija pomaga pri pridobivanju podatkov, čiščenju podatkov, pri čemer je potrebna nekaj preoblikovanja itd., Nato pa jih naložite v podatkovno skladišče.

Kaj je integracija podatkov Talend?

  • Talend je orodje ETL, ki se uporablja za integracijo podatkov. Talend ponuja rešitev za pripravo podatkov, kakovost podatkov, integracijo podatkov in velike podatke.
  • Talend ponuja Open Studio, ki je open-source za integracijo podatkov in velike podatke.
  • Talend open studio pomaga pri obdelavi ogromnih podatkov z velikimi komponentami podatkov. Vsebuje več kot 800+ komponent za različne integracijske namene. Tu bomo razpravljali o nekaterih sestavnih delih. Za lažjo uporabo spodnjega primera
  • Sim operater ima ogromno podatkov o načrtih, strankah, sim podrobnostih itd. Ti podatki so ogromni, zato se pri integraciji uporabljajo tudi veliki podatki.

Stranka Kupujem sim s pomočjo vladnega ID-ja.
Ime: AB C
Naslov kot: Chennai, Chennai
Telefonska številka: 1234567890

Po integraciji podatkov

Ime: AB
Priimek: C
Naslov: Chennai, Indija
Telefonska številka: +911234567890

Tu se podatki očistijo in pretvorijo v nekaj bolj smiselnega.

Prednosti integracije podatkov

Tu bomo razpravljali o prednostih integracije podatkov.

  1. Analiza poslovnih trendov s pomočjo integracije podatkov
  2. Združevanje podatkov v en sam sistem
  3. Prihranite na čas, učinkoviteje in manj predelajte
  4. Enostavna izdelava poročil - uporablja jih BI orodje
  5. Vzdrževanje in vstavljanje podatkov v podatkovno skladišče in podatkovne baze

Uporaba integracije podatkov Talend

Tukaj bomo razpravljali o uporabi integracije podatkov Talend.

1. Delo s Talendom

  • Prepričajte se, da imate nameščeno javo in spremenljivke okolja.
  • Prenesite odprtokodno datoteko s spletnega mesta Talend in namestite programsko opremo.
  • Ustvari nov projekt in zaključi namestitev
  • Talend se odpre z zavihkom oblikovalca.
  • Talend je orodje na osnovi mrka, komponente pa lahko povlečete iz palete ali pa kliknete in vnesete ime komponent.

2. Prvo delo branje datoteke

  • Poiščite komponento tFileinputdelimited. Ta komponenta se uporablja za branje poljubnih datotek.
  • Postavite komponento tFileinputdelimited. Poiščite tLogRow in ga vstavite v oblikovalca opravil.
  • Z desno miškino tipko kliknite tFileinputdelimited in izberite vrstico> glavna in narišite črto do tLogRow.
  • V komponenti zavihek izbere pot datoteke, ki jo želite prebrati, in ločilo vrstic poda kot \ n. Če ima datoteka ločitev, jo lahko omenite.
  • Kliknite shemo in navedite podrobnosti vrste stolpca ali pa lahko celotno vrstico preberete kot niz z enim stolpcem, vrednost ločila pa mora biti prazna.
  • Lahko tudi preskočite glavo in nogo.
  • V komponenti tLogRow izberite način, kako želite videti podatke. Oblika tabele ali enojna vrstica.
  • tLogRow prikaže izhod v konzoli za zagon.
  • Po povezovanju tFileinputdelimited in tLogRow opravilo zaženite z zavihka za zagon.
  • Vsebino datoteke vidite na konzoli natisnjeno.

3. Drugo delo z uporabo Tmap

  • Preberite datoteko in jo filtrirajte v različne izhodne datoteke.
  • Preberite datoteko v komponenti tFileinputdelitedited z eno shemo stolpcev kot zapis.
  • Tmap komponenta - Ta komponenta pomaga pri preoblikovanju podatkov z nekaterimi vgrajenimi funkcijami, kot so iskanje, združevanje itd.
  • V tmap ustvarite dva izhoda out1 in out2.
  • V filter out1 dodajte record.contains ("talend") in povlecite zapis v out1.
  • Narišite zapisno linijo na druge strani2.
  • Iz tmap vzemite glavne vrstice in se povežite z dvema tFileoutputdelitedited.
  • Out1 povezava do enega tfileoutputdelimited1 kot file1.txt in out2 do drugega tfileoutputdelimited2 kot file2.txt.
  • txt bo imel zapise, ki vsebujejo talent.
  • txt bo imel zapise z drugimi imeni.

4. Vgrajena in shramba

  • Vgrajena pomeni, da morate vsakič nastaviti shemo ali podrobnosti za povezavo z bazo podatkov.
  • Repozitorij je priročen za shranjevanje podrobnosti v metapodatke, tako da lahko vsakič znova uporabite iste podrobnosti, ne da bi vsakič ročno vnesli podrobnosti. V metapodatke lahko shranite datotečno shemo, povezave z bazo podatkov, povezavo Hadoop, panj povezavo, s3 povezavo in še veliko več.

Sestavni deli integracije podatkov Talend

Tukaj bomo razpravljali o komponentah integracije podatkov Talend.

1. tFileList: Ta komponenta navaja datoteke v imeniku ali mapi z določenim vzorcem maske datotek.

2. tMysqlConnection: Ta komponenta se uporablja za povezavo z bazo podatkov MySQL. Komponente Mysql lahko to povezavo uporabijo za enostavno nastavitev povezave z bazo podatkov.

3. tMysqlInput: Ta komponenta pomaga zagnati poizvedbo baze podatkov mysql in pridobiti tabelo ali stolpce. Ta komponenta se uporablja za izbiro poizvedb in pridobivanje podrobnosti.

4. tMysqlOutput: Ta komponenta se uporablja za vstavljanje ali posodabljanje podatkov v bazo podatkov Mysql.

5. tPrejob: Ta komponenta je prva izvedena v opravilu in jo je mogoče povezati z drugimi komponentami s funkcijo Subjob ok.

6. tPostjob: Ta komponenta je zadnja, ki se izvaja v opravilu. To lahko povežete s komponentami za zapiranje povezav.

7. tLogcatcher: Ta komponenta lovi opozorilo in napake v opravilu. To je najpomembnejša komponenta, ki se uporablja pri tehniki ravnanja z napakami. Dnevnike napak lahko napišete s to komponento skupaj s tfileoutputdelimited. Obstaja več kot 800+ komponent.

8. Kontekstna spremenljivka: Kontekstne spremenljivke so spremenljivke, ki jih lahko v poslu uporabljate kjer koli. Vsebuje vrednosti in se lahko prenese na drugo opravilo tudi s pomočjo komponent tRun. Uporaba spremenljivk konteksta je, da lahko vrednost spremenimo za različne namene. Na primer, lahko imamo niz vrednosti za razvojno kontekstno skupino in različen nabor kontekstnih vrednosti za produkcijo. Tako nam ni treba spremeniti opravila, dovolj je le spreminjanje kontekstnih parametrov.

9. Sestavljanje posla: Če želite sestaviti opravilo z desno miškino tipko kliknite opravilo in izberite gradbeno opravilo. Nalogo izdelave lahko uvozite v TAC. V upraviteljski konzoli Talend načrtujete opravilo, da sprožite tudi odvisnost od nabora opravil. Nalogo lahko uvozite tudi iz skladišča Nexus z opravilom artefakta.

10. Ustvarite nalogo v TAC: Odprite dirigent opravila v TAC. Kliknite nova opravila in izberite običajna opravila ali artefakte. Uvozite gradnjo ali izberite iz nexusa. Izberite strežnik opravil, v katerem se bo izvajal talent. Nalogo shranite. Zdaj lahko nalogo razmestite in zaženete.

Zaključek

  • "Poenostavite ETL in ELT z vodilnim brezplačnim odprtokodnim orodjem ETL za velike podatke." Je oznaka odprtega studia.
  • Talend Bigdata ima veliko komponent za obdelavo ogromnih podatkov.
  • Običajno opravilo, Bigdata opravilo, Bigdata pretočna opravila so različne vrste opravil, ki so na voljo v Talendu.
  • Delovna mesta Bigdata se lahko ustvarijo v iskri ali MapReduce.

Priporočeni članek

To je vodnik za integracijo podatkov Talend. Tukaj razpravljamo o uvodu v Talend Integration Data Integration in prednostih, skupaj z aplikacijami in komponentami. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke

  1. Orodje za integracijo podatkov | Najboljših 12 orodij
  2. Talend vprašanja in odgovori za intervju
  3. Najboljša orodja za vizualizacijo podatkov s svojimi vrstami
  4. Talend proti Mulesoft - razlike
  5. Kaj je Data Mart?

Kategorija: