Kaj je funkcija panja?

Kot danes vemo, je Hadoop ena izmed vsestranskih tehnologij v velikih podatkih. Hadoop se lahko spopade z velikimi podatkovnimi zbirkami, vendar pa je rast podatkov podatkov sorazmerna s pisanjem programov za zmanjšanje zemljevidov. Za izvajanje poizvedb SQL, ki je prisotna v HDFS, je takšno tehnologijo uvedel Hadoop z imenom apache Hive, ki jo je začel Facebook. Hive zelo uporablja podatkovni analitik. Nameščeni so za tri funkcije, in sicer: Povzemanje podatkov, analiza podatkov o porazdeljeni datoteki in poizvedba podatkov. Hive ponuja poizvedbe v obliki SQL, imenovane HQL - visoko poizvedbeni jezik podpira DML, uporabniško določene funkcije. Prevajalnik Hive interno pretvori to poizvedbo v opravila za zmanjšanje zemljevida, kar poenostavi delo Hadoopa pri pisanju zapletenih programov. Lahko bi našli panj v uporabi, kot so skladiščenje podatkov, vizualizacija podatkov in ad-hoc analiza, google analytics. Ključna prednost je, da uporabljajo znanje SQL, ki je osnovna veščina, ki jo izvajajo strokovnjaki s področja podatkov in strokovnjaki za programsko opremo.

Različne funkcije panj

Hive podpira različne vrste podatkov, ki jih ni mogoče najti v drugih sistemih baz podatkov. vključuje zemljevid, matriko in strukturo. Panj ima nekaj vgrajenih funkcij za izvajanje več matematičnih in aritmetičnih funkcij za poseben namen. Funkcije v panju lahko razvrstimo v naslednje vrste. So vgrajene funkcije in uporabniško definirane funkcije.

A) Vgrajene funkcije

Te funkcije izvlečejo podatke iz tabel panja in obdelajo izračune. Nekatere vgrajene funkcije so:

1. Matematične / numerične funkcije

Te funkcije se uporabljajo predvsem za matematične izračune. Te funkcije se uporabljajo v poizvedbah SQL.

Ime funkcijePrimerOpis
ABS (dvojni x)Panj> izberite ABS (-200) od tmp;Vrnil bo absolutno vrednost števila.
CEIL (dvojno x)Panj> izberite CEIL (8.5) od tmp;Dobilo bo najmanjše celo število večje od ali enako vrednosti x.
Rand (), rand (int seme)Panj> izberite Rand () od tmp;

Rand (0-9)

Vrne naključno število, odvisno od vrednosti semena, ki bi bila določena naključna števila.
Pow (dvojni x, dvojni y)Panj> izberite Pow (5, 2) od tmp;Vrne x vrednost, dvignjeno na moč y.
KAT (dvojno y)Panj> izberite FLOOR (11.8) od tmp;Vrne največje celo število manjše ali enako, da poda vrednost y.
EXP (dvojno a)Panj> izberite Exp (30) od tmp;Vrnil bo vrednost eksponenta 30. naravne vrednosti algoritma.
PMOD (int a, int b)Panj> izberite PMOD (2, 4) od tmp;Daje pozitiven modul števila.

2. Funkcije zbiranja

Odmetavanje vseh elementov skupaj in vračanje posameznih elementov je odvisno od vrste podatkov.

Ime funkcijePrimerOpis
Map_values (Zemljevid)Panj> izberite vrednosti na zemljevidu ('hi', 45)Pridobiva neurejene matrične elemente.
Velikost (zemljevid)Panj> izberite velikost (zemljevid)Vrne število elementov na zemljevidu podatkovnih vrst.
Array_contains (Niz b)Panj> izberite array_contains (a (10))Vrne TRUE, če matrika vsebuje vrednost.
Sort_array (Niz a)Panj> izberite sort_array ((10, 3, 6, 1, 7))Vhodni niz razvrsti v naraščajočem vrstnem redu glede na naravno urejenost elementov matrike in vrne vrednost.

3. Nizčne funkcije

Z uporabo nizkih funkcij se analiza podatkov izvaja odlično.

Razdeljeno (string s, string pat)Panj> izberite razcep ('educba ~ panj ~ Hadoop, ' ~ ') izhod: ("educba", "panj", "Hadoop")Razdeli niz okoli izrazov pat in vrne matriko.
obremenitev (string s, int Len, vrvica za niz)Panj> izberite obremenitev ('EDUCBA', 6, 'H')Vrne strune z desnim oblazinjenjem z dolžino niza. (znak pad).
Dolžina (niz str)Panj> izberite dolžino ('educba')Ta funkcija vrne dolžino niza.
Rtrim (niz a)Panj> izberite rtrim ('TOPIC');

Izhod: 'Tema'

Rezultat vrne z obrezovanjem presledkov z desnih koncev.
Concat (niz m, niz n)Panj> izberite concat ('podatki', 'ware') Rezultat: Podatkovna programska opremaRezultat je v nizu s povezovanjem dveh nizov, kar lahko traja poljubno število vhodov.
Obrni (niz)Panj> izberite vzvratno (»Mobilno«)Vrne rezultat obrnjenega niza.

4. Funkcija datuma
Za preprečitev ničelne napake v izhodu je potrebno imeti podatkovno obliko v panju. Potrebno je imeti združljivost z datumi, če želite uporabljati funkcije, povezane z datumom panja.

Unix_timestamp (datum niza, vzorec niza)Panj> izberite časovni žig Unix_ ('2019-06-08', 'yyyy-mm-dd');
Rezultat: 124576 400 časa: 0, 146 sekunde
Ta funkcija vrne datum v določeno obliko in vrne sekunde med datumom in Unix-jem.
Unix_timestamp (datum niza)Panj> izberite časovni žig Unix_ ('2019-06-08 09:20:10', 'yyyy-mm-dd');Datum vrne v obliki „yyyy-MM-dd HH: mm: ss“ v časovno oznako Unix.
Ura (datum niza)Panj> izberite uro ('2019-06-08 09:20:10'); Rezultat: 09 urVrne uro časovne žige

5. Pogojne funkcije

Če (Boolov test, vrednost T res, t napačno)Panj> izberite IF (1 = 1, 'TRUE', 'FALSE')
kot IF_CONDITION_TEST;
S pogojem preveri, ali je vrednost resnična vrne 1, napačna vrne pa 0.
Ni ničelno (b)Panj> Izbira ni nična (null);To pridobi ničelne izjave. če null vrne false.
Coalesce (vrednost1, vrednost2)Primer: panj> izberite coalesce (Null, null, 4, null, 6). vrne 4.Najprej prejme ničelne vrednosti s seznama vrednosti.

B) Uporabniško določena funkcija (UDF)

Hive uporablja uporabniško prilagojene funkcije glede na zahteve stranke, ki jih piše v java programiranju. Izvajata ga dva vmesnika, in sicer preprost API in zapleten API. Pokličejo jih iz poizvedbe panja. Tri vrste UDF-jev:

1. Redni UDF

Deluje na mizi z eno samo vrstico. Ustvari se z ustvarjanjem razreda java, nato pa jih pakira v datoteko .jar, naslednji korak je preverjanje s panj razreda. nato jih končno izvrši v poizvedbi panj.

2. Uporabniško določena funkcija agregata

Z uporabo petih metod init (), iterate (), del ((), spajanje (), konec (), uporabljajo združene funkcije, kot je avg / mean.

3. Uporabniško definirane funkcije ustvarjanja tabele

Deluje z eno vrstico v tabeli in ima za posledico več vrstic.

Zaključek

Za zaključek smo se v tem članku podrobno naučili, kako delati v panj platformi z vgrajenimi funkcijami in uporabniško določenimi funkcijami. Večina organizacij ima programer in SQL razvijalca, ki deluje na strani strežnika, vendar je apeche panj močno orodje, ki jim pomaga pri uporabi Hadoop okvira brez predhodnega znanja o programih in zmanjševanju zemljevidov. Hive pomaga novim uporabnikom zagnati in raziskati analizo podatkov brez ovir.

Priporočeni članki

To je vodnik po funkciji panj. Tukaj razpravljamo o konceptu, dveh različnih vrstah funkcij in podfunkcij v Pive. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Funkcije zgornjih vrvic v panju
  2. Vprašanja za intervju
  3. Kaj je RMAN Oracle?
  4. Kaj je model slapov?
  5. Uvod v panjsko arhitekturo
  6. Naročilo za panj

Kategorija: