Kaj je prašič?
Prašič je odprtokodni motor, ki je del ekosistemskih tehnologij Hadoop. Prašič se odlično obnese s podatki, ki presegajo tradicionalne baze podatkov ali skladišča podatkov. To se lahko dobro spopade z manjkajočimi, nepopolnimi ali neskladnimi podatki, ki nimajo sheme. Prašič ima svoj jezik za izražanje manipulacij s podatki, to je latinski prašič.
Razumevanje prašiča
Pig je tehnologija, ki omogoča pisanje visokih, a izredno natančnih skript, ki omogoča delo s podatki, kjer shema ni znana ali je neskladna. Prašič je odprtokodna tehnologija, ki deluje na vrhu Hadoopa in je del izjemno živahnega in priljubljenega Hadoop ekosistema.
Prašič dobro deluje z nestrukturiranimi in nepopolnimi podatki, zato vam ni treba imeti tradicionalne postavitve pravil in stolpcev za vse.
Je dobro opredeljen in lahko neposredno deluje na datoteke v HDFS (Hadoop Distributed File System).
Prašič bo vaša izbirna tehnologija, ko boste želeli podatke iz vira spraviti v podatkovno skladišče.
Na primer, vizualni načrt, kako podatki navadno tečejo, preden jih lahko uporabite za ustvarjanje lepih grafikonov, ki jih uporabljate za sprejemanje poslovnih odločitev.
Surovi podatki prihajajo iz različnih virov, kot so senzorji, mobilni telefoni itd. Nato boste prašiča uporabili za izvajanje ETL operacije. ETL pomeni izvleček, preoblikovanje in nalaganje, ko se te operacije izvedejo, se očiščeni podatki shranijo v drugo bazo podatkov. Primer takšne baze podatkov bi bil HDFS, ki je del Hadoopa. Hive je skladišče podatkov, ki se bo izvajalo nad datotečnim sistemom, kot je ta. Panj je tisto, kar bi uporabili za analizo, za pripravo poročil in za pridobivanje vpogledov.
ETL je zelo pomemben korak pri obdelavi podatkov, da se neobdelani podatki očistijo in v pravi obliki shranijo v bazo podatkov. Izvleček se nanaša na operacijo vlečenja nestrukturiranih, neskladnih podatkov z manjkajočim poljem in vrednostmi iz prvotnega vira. Transform pomeni niz operacij, ki bi jih uporabili na podatkih, da bi jih očistili ali dobili.
Predhodno izračunavanje koristnih zbirnih informacij, obdelava polj, da se ujemajo z določeno obliko, vse to je del čiščenja podatkov transformacijskih polj.
Na koncu Pig izvede nalaganje, kjer so ti čisti podatki shranjeni v bazi podatkov, kjer jih je mogoče še naprej analizirati. Primer standardne operacije, ki jo Pig izvaja, je čiščenje dnevniških datotek.
Pojasnite prašičjo arhitekturo
V arhitekturi so številni deli prašičev, raje:
- Parser : Parser se ukvarja tudi s Skripti prašičev in preverja skladnost skripta, tipkano preverjanje in različna preverjanja. Poleg tega je njihov rezultat lahko DAG (usmerjeni aciklični graf), ki ponavadi pomeni prašičje latinske trditve skupaj z logičnimi operaterji.
Tudi logični operaterji s skriptom bodo prikazani kot vozlišča, pretoki podatkov pa bodo prikazani od robov skozi DAG.
- Optimizator: Pozneje je logični načrt (DAG) običajno presežen v smeri logičnega optimizatorja. Izvaja dodatne logične optimizacije, vključno s projekcijo, in spodbuja nizko
- Prevajalnik: Tudi prevajalnik zbira izboljšan logični načrt v skupini MapReduce.
- Izvedbeni mehanizem: Na koncu bodo vsa dela MapReduce objavljena na Hadoop v razvrščenem zaporedju. Sčasoma to ustvari zahtevane rezultate, čeprav bodo ta dela MapReduce izvedena s Hadoopom.
- MapReduce: MapReduce je bil prvotno zasnovan v Googlu kot način za obdelavo spletnih strani, da bi omogočil Google iskanje. MapReduce distribuira računalništvo na več strojev v grozdu. MapReduce izkorišča inherentno vzporednost pri obdelavi podatkov. Sodobni sistemi, kot so senzorji ali celo posodobitve stanja Facebooka, ustvarijo milijone zapisov surovih podatkov.
Dejavnost s to stopnjo lahko pripravimo v dveh fazah:
- Zemljevid
- Zmanjšaj
Odločite se, katero logiko želite v teh fazah izvajati za obdelavo svojih podatkov.
- HDFS (Hadoop Distributed File System): Hadoop omogoča eksplozijo shranjevanja in analiz podatkov v merilu v neomejeni količini. Razvijalci za pridobivanje podatkov iz HDFS uporabljajo aplikacije, kot so Pig, Hive, HBase in Spark.
Lastnosti
Apache Pig ima različne funkcije:
- Enostavnost programiranja: Latin Pig je primerljiv s SQL, zato razvijalci dokaj enostavno ustvarijo Pig skript. Če razumete jezik SQL, se je naučiti prašičje latinščine neverjetno preprosto, saj je tako kot jezik SQL.
- Bogat nabor operaterjev: Pig vključuje različne bogate nabore operaterjev, da lahko izvajajo postopke tako kot pridruži se, ustanovi, razvrsti in še veliko več.
- Možnosti optimizacije: uspešnost z nalogo v Apache Pig lahko takoj izboljšate z nalogo; zato se morajo razvijalci osredotočiti na semantiko tega jezika.
- Razširljivost: S pomočjo dostopnih operaterjev lahko uporabniki preprosto razvijejo svoje funkcije za branje, obdelavo in zapisovanje podatkov.
- Uporabniško definirane funkcije (UDF-ji): S pomočjo storitve, ki jo je Pig izdelal UDF-jev, bi lahko izdelali uporabniško definirane funkcije na številu razvojnih jezikov, vključno z Java, ter jih vse priklicali ali vdelali v Pig Scripts.
Za kaj je prašič uporaben?
Uporablja se za pregled in izvrševanje odgovornosti, vključno s priložnostnim ravnanjem. Apache Pig lahko uporabljate za:
Analiza z ogromnimi zbirkami surovih podatkov daje prednost obdelavi podatkov za iskanje spletnih mest. Google, na primer Yahoo, koristi Apache Pig za oceno podatkov, zbranih prek Googla in tudi Yahoo iskalnikov. Ravnanje z velikimi zbirkami podatkov, tako kot spletni zapisi, pretakanje spletnih informacij in podobno. Tudi Facebookove posodobitve statusa ustvarijo milijone zapisov surovih podatkov.
Kako vam ta tehnologija pomaga pri rasti v karieri?
Mnoge organizacije zelo hitro izvajajo Apache Pig. To pomeni, da se poklice na področju prašičereje in prašičereje vsak dan povečujejo. V zadnjih nekaj letih je bil pri razvoju Apache Hadoop ogromen napredek. Hadoop elementi tako kot Hive, Pig, HDFS, HBase, MapReduce in tako naprej.
Čeprav je ponudba Hadoop v tem času prišla v njihovo drugo desetletje, je v prejšnjih treh do štirih letih postala prepoznavna. Veliko število programskih podjetij neverjetno pogosto uporablja skupine Hadoop. To je zagotovo najboljši del velikih podatkov. Strokovnjaki, ki se ukvarjajo s ciljno usmeritvijo, bi se lahko izkazali za izkušene v tej odlični tehnologiji.
Zaključek
Strokovnjaki Apache Pig Expertise so na trgu velike zahteve in se lahko še naprej širijo. S preprostim razumevanjem konceptov in izkušnjami z najboljšimi Apache Pig v Hadoop spretnostih se lahko strokovnjaki odlično lotijo svojega poklica Apache Pig.
Priporočeni članek
To je vodilo za Kaj je prašič? Tu smo razpravljali o pojmih, definiciji in arhitekturi s funkcijami Svinja. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -
- Kako namestiti Apache
- Vprašanja za intervju Apache PIG
- Kaj so spletne storitve ASP.Net?
- Kaj je tehnologija Blockchain?