Kaj je panj?

Preden najprej razumemo tipe podatkov panj, bomo panj preučili. Panj je tehnika Hadoopa za shranjevanje podatkov. Hadoop je segment shranjevanja in obdelave podatkov platforme Big data. Hive ima svoje mesto za nadaljevanje tehnik obdelave podatkov. Tako kot do drugih nadaljevalnih okolij je tudi do nadaljnjih poizvedb mogoče dobiti tudi panj. Najpomembnejša ponudba panja je analiza podatkov, ad-hoc poizvedovanje in povzemanje shranjenih podatkov z vidika zamude, poizvedbe so večje.

Vrste podatkov o panju

Podatkovne tipe razvrščamo v dve vrsti:

  • Primitivne vrste podatkov
  • Zbirni tipi podatkov

1. Primitivne vrste podatkov

Primitivna sredstva so bila starodavna in stara. vsi tipi podatkov, našteti kot primitivni, so podedovani. spodaj navedena pomembna področja primitivnih podatkovnih tipov:

Vtipkajte Velikost (bajt) Primer
TinyInt 1 20
SmallInt 2 20
Int 4 20
Bigint 8 20
Boolov Boola resnična / napačna LAŽNO
Dvojna 8 10.2222
Plovec 4 10.2222
Vrvica Zaporedje znakov ABCD
Časovni žig Integer / float / string 2.3.2012 12: 34: 56: 1234567
Datum Integer / float / string 3.9.2019

Vrste podatkov panj se izvajajo s pomočjo JAVA

Na primer: Java Int se tukaj uporablja za izvajanje vrste podatkov Int.

  • Niz znakov ni podprt v HIVE.
  • Hive se za ločevanje svojih polj opira na ločilnike, panj pri usklajevanju s Hadoopom pa omogoča večjo uspešnost pisanja in branje.
  • Določitev dolžine vsakega stolpca v bazi panjev ni pričakovati.
  • Stralni besedili se lahko artikulirajo v dvojnih navedbah (")".
  • V novejši različici panja se uvajajo vrste Varchar, ki tvorijo razpon specifik (sredi 1 in 65535). Torej, za znakovni niz je to največja dolžina vrednosti, ki jo lahko sprejme. Ko se vstavi vrednost, ki presega to dolžino, so skrajni desni elementi teh vrednosti. Dolžina znaka je ločljivost s številko kodnih točk, ki jih nadzira znakovni niz.
  • Vse celoštevilčne črke (TINYINT, SMALLINT, BIGINT) se v osnovi obravnavajo kot INT podatkovni tipi in le dolžina presega dejansko int raven, ki jo pretvori v BIGINT ali katero koli drugo zadevno vrsto.
  • Decimalni dobesedi omogočajo definirane vrednosti in nadstandardno zbiranje vrednosti s plavajočo vejico v primerjavi s tipom DOUBLE. Tu so numerične vrednosti shranjene v njihovi natančni obliki, pri dvojnih pa niso shranjene točno kot številčne vrednosti.

Postopek vlivanja vrednosti v datum

Kasting se izvaja Rezultat
igralska zasedba (datum kot datum) Ista vrednost datuma
zasedba (časovni žig kot datum) Za ovrednotenje vrednosti let / mesec / datum tukaj se uporablja lokalni časovni pas in natisnjeno v izhodu.
zasedba (niz kot datum) Kot rezultat tega uvajanja bo pozvana ustrezna vrednost datuma, vendar moramo zagotoviti, da je niz v obliki "LLLL-MM-DD" Nulta bo vrnjena, ko vrednost niza ne doseže veljavnega ujemanja.
zasedba (datum kot časovni žig) Glede na trenutni lokalni časovni pas bo ustvarjena vrednost časovnega žiga za ta postopek vlivanja
zasedba (datum kot niz) LLLL-MM-DD je oblikovan za vrednost leto / mesec / datum in izhod bo v obliki niza.

2. Vrste zbiranja podatkov

V panju so štiri vrste podatkovnih zbirk, ki jih imenujemo tudi kot zapletene podatkovne vrste.

  • ARRAY
  • ZEMLJEVID
  • STRUKT
  • UNIONTIP

1. ARRAY: Zaporedje elementov skupne vrste, ki jih je mogoče indeksirati in vrednost indeksa se začne od nič.

Koda:

array ('anand', 'balaa', 'praveeen');

2. KARTA: To so elementi, ki so deklarirani in pridobljeni s pomočjo parov ključ-vrednost.

Koda:

'firstvalue' -> 'balakumaran', 'lastvalue' -> 'pradeesh' is represented as map('firstvalue', 'balakumaran', 'last', 'PG'). Now 'balakumaran ' can be retrived with map('first').

3. STRUKT: Tako kot pri C je struktura podatkovni tip, ki nabira niz polj, ki so označena in so lahko kakršna koli druga vrsta podatkov.

Koda:

For a column D of type STRUCT (Y INT; Z INT) the Y field can be retrieved by the expression DY

4. UNIONTIP: Unija lahko hrani katero koli od določenih vrst podatkov.

Koda:

CREATE TABLE test(col1 UNIONTYPE ) CREATE TABLE test(col1 UNIONTYPE )

Izhod:

Spodaj so navedeni različni ločilniki, ki se uporabljajo v zapletenih tipih podatkov,

Delititer Koda Opis
\ n \ n Posnemite ali loči vrstic
A (Ctrl + A) \ 001 Ločnica polja
B (Ctrl + B) \ 002 ZGRADBE IN NALEPI
C (Ctrl + C) \ 003 Karte MAP

Primer zapletenih podatkovnih vrst

Spodaj so primeri zapletenih podatkovnih vrst:

1. USTVARJANJE TABELE

Koda:

create table store_complex_type (
emp_id int,
name string,
local_address STRUCT,
country_address MAP,
job_history array)
row format delimited fields terminated by ', '
collection items terminated by ':'
map keys terminated by '_';

2. VZORCNI PODATKI O TABELI

Koda:

100, Shan, 4th : CHN : IND : 600101, CHENNAI_INDIA, SI : CSC
101, Jai, 1th : THA : IND : 600096, THANJAVUR_INDIA, HCL : TM
102, Karthik, 5th : AP : IND : 600089, RENIKUNDA_INDIA, CTS : HCL

3. OBLIKOVANJE PODATKOV

Koda:

load data local inpath '/home/cloudera/Desktop/Hive_New/complex_type.txt' overwrite into table store_complex_type;

4. OGLED PODATKOV

Koda:

select emp_id, name, local_address.city, local_address.zipcode, country_address('CHENNAI'), job_history(0) from store_complex_type where emp_id='100';

Zaključek - Vrste podatkov o panju

Ker je relacijski DB in hkrati Sequel povezuje HIVE, ponuja vse ključne lastnosti običajnih baz podatkov SQL na zelo prefinjen način, zaradi česar je ta med učinkovitejšimi strukturiranimi enotami za obdelavo podatkov v Hadoopu.

Priporočeni članki

To je vodnik po vrsti podatkov o panju. Tukaj obravnavamo dve vrsti podatkov v panjskih vrstah s primernimi primeri. Obiščite lahko tudi druge naše sorodne članke, če želite izvedeti več -

  1. Kaj je panj?
  2. Nadomestni panj
  3. Vgrajene funkcije panja
  4. Vprašanja za intervju
  5. Vrste PL / SQL podatkov
  6. Primeri vgrajenih funkcij Python-a
  7. Različne vrste podatkov SQL s primeri

Kategorija: