Kaj je panj?

Apache Hive je sistem za shranjevanje podatkov, zasnovan na odprtokodni platformi Hadoop in se uporablja za povzemanje podatkov, poizvedbo velikih podatkov, analizo podatkov itd.

Panj je razvil Facebook in pozneje ga je prevzela Apache Software Foundation, ki ga je nadalje razvila kot odprto kodo pod imenom Apache Pive.

Opredelitev:

To ni relacijska podatkovna baza, zato ni primeren za spletno obdelavo transakcij in poizvedbe v realnem času s posodobitvami na ravni vrstic. Panj je zasnovan za analitično obdelavo na spletu ali OLAP. Ponuja tudi poizvedbeni jezik, imenovan HiveQL. Je razširljiv, hiter in razširljiv. Poizvedbe, ki so videti skoraj kot SQL, pretvori v opravila MapReduce za enostavno izvajanje in obdelavo velike količine podatkov. Apechev panj je ena izmed komponent Hadoop, ki jih običajno uporabljajo analitiki podatkov, medtem ko se za isto nalogo uporablja tudi prašič Apache, vendar ga bolj uporabljajo raziskovalci in programerji. Panj Apache, ki je odprtokodni sistem za shranjevanje podatkov, se uporablja za poizvedovanje in analiziranje ogromnih nizov podatkov, shranjenih v Hadoop shrambi. Panj je najprimernejši za serijska opravila in ne za spletne vrste obdelave transakcijskih transakcij. Prav tako ne podpira poizvedb v realnem času. Hive uporablja jezik SQL kot poizvedbeni jezik in se v glavnem uporablja za ustvarjanje poročil. Hive je običajno nameščen na strani strežnika in podpira strukturirane podatke. Hive podpira tudi integracijo z orodji JDBC in BI.

Razumevanje panj:

Spodaj so glavni sestavni deli panja:

Meta trgovina:

Repozitorij, v katerem so shranjeni metapodatki, se imenuje hive meta store. Metapodatki so sestavljeni iz različnih podatkov o tabelah, kot so njegova lokacija, shema, informacije o particijah, ki pomagajo spremljati različno porazdeljen napredek podatkov v grozdu. Prav tako spremlja podatke in kopira podatke, ki zagotavlja varnostno kopijo v nujnih primerih, kot je izguba podatkov. Informacije o metapodatkih so prisotne v relacijskih bazah podatkov in ne v datotečnem sistemu Hadoop.

Voznik:

Ob izvajanju izjave poizvedbenega jezika Hive voznik prejme izjavo in jo nadzoruje skozi celoten cikel izvajanja. Poleg izvedbe izjave gonilnik shrani tudi metapodatke, ustvarjene z izvedbo. Ustvari tudi seje za spremljanje napredka in življenjskega cikla različnih usmrtitev. Po zaključku operacije zmanjševanja z opravilom MapReduce voznik zbere vse podatke in rezultate poizvedbe

Prevajalnik:

Uporablja se za prevajanje poizvedbenega jezika Hive v vnos MapReduce. Pokliče metodo, ki izvaja korake in naloge, ki so potrebni za branje izhoda HiveQL, kot to zahteva MapReduce.

Optimizator:

Glavna naloga optimizatorja je izboljšati učinkovitost in razširljivost ter ustvariti nalogo, medtem ko podatke pretvori pred operacijo zmanjšanja. Izvaja tudi preobrazbe, kot so združevanje, pretvorba cevovodov z enim samim spojem za več spojev.

Izvršitelj:

Po postopku sestavljanja in optimizacije je glavna naloga izvajalca, da opravi naloge. Glavna naloga izvajalca je interakcija s sledilcem delovnih mest Hadoop za razporejanje naloge, pripravljenih za izvajanje.

Uporabniški vmesnik, Thrift strežnik in CLI:

Thrift strežnik uporabljajo druge stranke za interakcijo z motorjem Hive. Uporabniški vmesnik in vmesnik ukazne vrstice pomagata pri oddaji poizvedb, spremljanju procesov in navodilih, tako da lahko zunanji uporabniki komunicirajo s panjem.

Spodaj so koraki, ki prikazujejo interakcijo panja z okvirom Hadoop:

Izvedba poizvedbe:

Poizvedba se gonilniku pošlje iz vhodnih vmesnikov, kot sta ukazna vrstica ali spletni uporabniški vmesnik. Gonilnik je lahko kateri koli gonilnik baze podatkov, kot sta JDB ali ODBC itd.

Kako narediti načrt:

Skladbo zahteve poizvedbe ali poizvedbe lahko preverite s pomočjo prevajalnika poizvedb, ki gre skozi poizvedbo in ga sproži voznik.

Pridobivanje metapodatkov:

Meta trgovina je lahko prebiva v kateri koli bazi podatkov, prevajalnik pa vloži zahtevo za dostop do metapodatkov.

Pošiljanje metapodatkov:

Na zahtevo prevajalnika meta trgovina pošlje metapodatke.

Pošiljanje načrta:

Prevajalnik načrt pošlje gonilniku, da preveri zahteve, ki jih pošlje prevajalnik. Ta korak zaključi razčlenitev in sestavljanje poizvedbe.

Izvedba načrta:

Načrt izvajanja voznik pošlje izvršnemu motorju.

Izvajanje opravila:

Opravljanje opravila je opravilo MapReduce, ki se izvaja v zaledju. Nato sledi običajni konvenciji Hadoop okvira - izvršilni mehanizem pošlje opravilo sledilcu opravil, ki je na imenskem vozlišču, poimensko vozlišče pa bo to opravilo dodelilo sledilcu opravil, ki je v podatkovni opombi. Tu je izvedeno opravilo MapReduce.

Možnosti metapodatkov:

Med izvajanjem opravila izvršilni mehanizem lahko izvede metapodatke z meta shrambo.

Pridobivanje rezultata:

Podatkovna vozlišča po zaključku obdelave rezultat prenesejo na izvedbeni motor.

Pošiljanje rezultata

Voznik rezultat prejme od izvedbe motorja.

Pošiljanje rezultata:

Končno vmesniki Hive prejmejo rezultat od gonilnika.

Tako z izvedbo zgornjih korakov poteka popolna izvedba poizvedb v podjetju Hive.

Kako panj olajša delo?

Hive je okvir za shranjevanje podatkov, zgrajen na vrhu Hadoopa, ki uporabniku pomaga pri analizi podatkov, poizvedovanju po podatkih in povzročanju podatkov na velikih količinah naborov podatkov. HiveQL je edinstvena funkcija, ki izgleda kot podatki SQL, shranjeni v bazi podatkov, in opravlja obsežno analizo. Znal sem brati podatke z zelo hitro hitrostjo in zapisovati podatke v shrambe podatkov, prav tako pa lahko upravljam z velikimi nabori podatkov, razporejenimi na več lokacijah. Skupaj s tem panj omogoča tudi strukturo podatkov, ki so shranjeni v bazi podatkov in uporabniki se lahko povežejo s panjem z orodjem ukazne vrstice ali gonilnikom JDBC.

Najboljša podjetja:

Večje organizacije, ki delajo z velikimi podatki, uporabljajo panj - kot so facebook, Amazon, Walmart in mnogi drugi.

Kaj lahko storite s Hivem?

Veliko je funkcionalnosti panja, kot so poizvedovanje podatkov, povzemanje in analiza podatkov. Hive podpira poizvedbeni jezik, imenovan HiveQL ali Hive Query Language. Poizvedbeni jezik Hive poizvedbe je preveden v opravilo MapReduce, ki je obdelano na skupini Hadoop. Poleg tega Hiveql zmanjšuje tudi skript, ki jo lahko dodate v poizvedbe. Na ta način HiveQL poveča fleksibilnost načrtovanja sheme, ki podpira tudi deserializacijo podatkov in serializacijo podatkov.

Delo s Pive:

Spodaj je nekaj operativnih podrobnosti v panju. Podatkovni tipi panj so v splošnem razvrščeni v štiri vrste, kot so podane spodaj:

  • Vrste stolpcev
  • Literali
  • Ničelne vrednosti
  • Kompleksne vrste

1. Vrste stolpcev:

To so tipi podatkovnih stolpcev panja. Ti so spodaj razvrščeni:

  • Integralni tipi: Celotni podatki so predstavljeni z uporabo vrste integralnih podatkov. Simbol je INT. Vsakim podatkom, ki presegajo zgornjo mejo INT, je treba dodeliti podatkovni tip BIGINT. Na enak način je treba kakršnim koli podatkom pod spodnjo mejo INT dodeliti SMALLINT. Obstaja še ena vrsta podatkov, imenovana TINYINT, ki je celo manjša od SMALLINT.
  • Vrste nizov: Vrsta podatkovnih nizov je v panju predstavljena z enim citatom (') ali dvojnimi narekovaji ("). Lahko je dveh vrst - VARCHAR ali CHAR.
  • Časovna oznaka: Časovni žig panj podpira obliko java.sql.Timatska oznaka „llll-mm-dd hh: mm: ss.ffffffffff“ in format „LLLL-MM-DD HH: MM: SS.fffffffff“.
  • Datum: Datum je v panju predstavljen v obliki LLLL-MM-DD, ki predstavlja leto-mesec.
  • Decimke : Decimke v panju so predstavljene v velikem decimalnem formatu java in se uporabljajo za prikaz nespremenljive poljubne natančnosti. Predstavljen je v obliki Decimal (natančnost, lestvica).
  • Tipi zveze: Union se v panju uporablja za ustvarjanje zbirke heterogenih podatkovnih vrst. Ustvari ga lahko z ustvarjanjem zveze.

Spodaj je primer:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Literali:

V panju je malo literalov, ki se uporabljajo. Spodaj so:

  • Vrsta plavajoče točke : Predstavljajo se kot številke z decimalno točko. Ti so precej podobni dvojnim tipom podatkov.
  • Decimalna vrsta : Ta vrsta podatkov vsebuje samo podatke decimalnega tipa, vendar z višjim razponom vrednosti s plavajočo vejico kot dvojni tip podatkov. Obseg decimalne vrste je približno -10 -308 do 10 308.

3. Ničelna vrednost:

Posebna vrednost NULL predstavlja manjkajoče vrednosti v panju.

4. Kompleksne vrste:

Spodaj so različne zapletene vrste, ki jih najdemo v panju:

  • Nizi : Nizki so predstavljeni v panju v enaki obliki kot java. Skladnja je kot ARRAY.
  • Zemljevidi : Zemljevidi so v panju predstavljeni v isti obliki kot java. Skladnja je kot MAP
  • .
  • Strukture : Strukture v panju so predstavljene kot zapleteni podatki s komentarji. Skladnja je kot STRUCT.

Poleg vseh teh lahko ustvarimo baze podatkov, tabele, jih razdelimo in številne druge funkcije.

  • Baze podatkov: To so prostori imen, ki vsebujejo zbirko tabel. Spodaj je skladnja za ustvarjanje baze podatkov v panju.

CREATE DATABASE (IF NOT EXISTS) sampled;

Podatkovne baze se lahko tudi opustijo, če niso več potrebne. Spodaj je sintaksa za spustitev baze podatkov.

DROP DATABASE (IF EXISTS) sampled;

  • Tabele: Prav tako jih lahko ustvarite v panju za shranjevanje podatkov. Spodaj je sintaksa za ustvarjanje tabele.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Če je ne potrebujete več, lahko tudi spustite mizo. Spodaj je skladnja za spustitev tabele.

DROP TABLE (IF EXISTS) table_name;

Prednosti

Glavna prednost Apache Hive je v poizvedovanju, povzetku in analizi podatkov. Hivev je zasnovan za boljšo produktivnost razvijalca in prihaja tudi s stroški povečevanja zamud in zmanjšanja učinkovitosti. Apache Hive zagotavlja širok spekter uporabniško definiranih funkcij, ki jih je mogoče povezati z drugimi paketi Hadoop, kot so RHipe, Apache Mahout itd. Razvijalcem v veliki meri pomaga pri delu s kompleksno analitično obdelavo in več oblikami podatkov. Uporablja se predvsem za shranjevanje podatkov, kar pomeni sistem, ki se uporablja za poročanje in analizo podatkov.

Vključuje čiščenje, preoblikovanje in modeliranje podatkov, da se zagotovijo koristne informacije o različnih poslovnih vidikih, ki bodo pomagale pri ustvarjanju koristi organizaciji. Analiza podatkov ima veliko različnih vidikov in pristopov, ki vključujejo različne tehnike z različnimi imeni v različnih poslovnih modelih, družboslovnih področjih itd. Panj je zelo uporabniku prijazen in uporabnikom omogoča hkratni dostop do podatkov, kar poveča odzivni čas. V primerjavi z drugimi vrstami poizvedb o ogromnih podatkih je čas odziva panja veliko hitrejši od drugih. Prav tako je veliko prilagodljiv glede zmogljivosti pri dodajanju več podatkov in s povečanjem števila vozlišč v grozdu.

Zakaj bi uporabljali panj?

Skupaj z analizo podatkov panj ponuja široko paleto možnosti za shranjevanje podatkov v HDFS. Hive podpira različne datotečne sisteme, kot so ploščata datoteka ali besedilna datoteka, zaporedna datoteka, sestavljena iz binarnih parov ključ-vrednost, RC datotek, ki shranjujejo stolpec tabele v stolpčni bazi podatkov. Danes je datoteka, ki je najbolj primerna za Hive, znana kot ORC datoteke ali datoteke Optimized Row Columnar.

Zakaj potrebujemo panj?

V današnjem svetu je Hadoop povezan z najbolj razširjenimi tehnologijami, ki se uporabljajo za obdelavo velikih podatkov. Zelo bogata zbirka orodij in tehnologij, ki se uporabljajo za analizo podatkov in druge velike obdelave podatkov.

Kdo je pravo občinstvo za učenje tehnologij Hive?

Večinoma ljudje, ki imajo izkušnje kot razvijalci, Hadoop analitika, sistemski skrbniki, shranjevanje podatkov, SQL Professional in Hadoop administracija lahko obvladajo panj.

Kako vam bo ta tehnologija pomagala pri karierni rasti?

Hive je danes ena najbolj priljubljenih spretnosti na trgu in je eno najboljših orodij za analizo podatkov v svetu velikih podatkov Hadoop. Velika podjetja, ki delajo analize na velikih zbirkah podatkov, vedno iščejo ljudi s pravicami veščin, zato lahko upravljajo in poizvedujejo ogromno količino podatkov. Hive je eno najboljših orodij na trgu velikih podatkovnih tehnologij, ki je na voljo v zadnjih dneh in ki lahko pomagajo celotni organizaciji pri njihovi analizi podatkov.

Zaključek:

Poleg zgoraj naštetih funkcij ima panj veliko bolj napredne zmogljivosti. Moč panja za obdelavo velikega števila podatkovnih nizov z veliko natančnostjo omogoča panj eno najboljših orodij, ki se uporabljajo za analitiko na veliki podatkovni platformi. Poleg tega ima tudi občasno izboljšanje in enostavnost uporabe končnega uporabnika kot eno vodilnih orodij za analizo velikih podatkov v prihodnjih dneh.

Priporočeni članki

To je vodnik o tem, kaj je panj. Tu smo razpravljali o delu, spretnostih, karierni rasti, prednostih podjetja Hive in vrhunskih podjetij, ki to tehnologijo izvajajo. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Ukazi panj
  2. Vprašanja za intervju
  3. Kaj je Azure?
  4. Kaj je tehnologija velikih podatkov?
  5. Arhitektura panj | Opredelitev
  6. Uporaba ORDER BY Function v panju

Kategorija: