Kako namestiti panj?

Apache Hadoop je zbirka okvira, ki omogoča obdelavo velikih podatkov, razporejenih po grozdu. Po Apache Hive je projekt programske opreme za skladiščenje podatkov, zgrajen na vrhu Apache Hadoop za zagotavljanje poizvedovanja in analize podatkov. Apache panj ponuja vmesnik v obliki SQL za poizvedovanje in obdelavo velike količine podatkov, imenovane HQL (Hive query language). Apache panj teče po ekosistemu Hadoop in podatki, shranjeni v obliki datoteke, pomenijo Hadoop porazdeljeni datotečni sistem (HDFS). Apache Hive uporabniku ponuja odličen vmesnik za dostop in izvedbo operacije na podatkih v obliki tabele, ki zagotavlja odlično tehniko optimizacije za izboljšanje zmogljivosti. Izjemno hitro je poizvedba hitreje opraviti z velikimi podatki in verjemite mi, to je pomembno v proizvodnem okolju.

V zaledju prevajalnik pretvori poizvedbo HQL v zemljevid, zmanjša opravila in jih nato predloži v izvedbe Hadoop okvira.

Razlika med Hive in SQL

Apache Hive je zelo podoben SQL, vendar kot vemo, panj deluje po ekosistemu Hadoop in notranje pretvori opravila v MR (Map Reduce jobs), to med Hivem in SQL naredi nekaj razlike.

Hive ne bi bil najboljši pristop za tiste aplikacije, kjer je potreben zelo hiter odziv in zelo pomembno je razumeti, da je Hive bolj primeren za paketno obdelavo zelo velikih nizov nespremenljivih podatkov, in to moramo upoštevati, da je Hive reden RDBMS in nazadnje vendar je nenazadnje apache panj shema na bralnih sredstvih (pri vstavljanju podatkov v panj tabelo ne bo motilo neskladje vrste podatkov, vendar bo ob branju podatkov pokazalo ničelno vrednost, če se tip podatkov ne ujema z določenim tipom podatkov stolpca).

Predhodna zahteva za namestitev panja

Kot sem že rekel, je zelo pomembno, da razumemo, da Apache panj teče po Ekosistemu Hadoop in Hadoop bi moral biti pripravljen na delo z vsemi demoni.

Nekateri izmed osnovnih Hadoopovih demonov so naslednji:

  • Ime vozlišča
  • Podatkovno vozlišče
  • Upravitelj virov
  • Upravitelj vozlišč

Če želite preveriti Hadoop različico spodaj, je ukaz:

Vtipkajte → Hadoop različica v ukazni poziv vam bo dal različico Hadoop.

Če želite preveriti sprožilec poročila o grozdu Hadoop pod ukazom:

Vtipkajte → Hadoop dfsadmin –report v ukaznem pozivu vam bo dal celotno poročilo o grozdu, če se vaš strežnik izvaja.

Če Hadoop na vašem računalniku ni nameščen in vas zahteva, da sledite navodilom apache, da namestite Hadoop na vaš sistem.

Upam, da je java že nameščena tudi v vašem sistemu. Če želite preveriti različico Java, glejte spodnji posnetek zaslona.

Koraki za namestitev panja v Ubuntu

Spodaj so naslednji koraki za namestitev Hive na Ubuntu:

1. korak : Kletni katran, ki ga lahko naložimo s spodnjim ukazom v terminalu, lahko neposredno prenesemo tudi iz terminala.

Ukaz: dobimo http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

2. korak : Izvlečemo datoteko katrana s pomočjo spodnjega ukaza v terminalu, lahko neposredno izvlečemo katran nad preneseno datoteko katrana.

Ukaz: tar -xzf apache-panj-2.1.0-bin.tar.gz

Predlagal vam bom, da preverite z ukazom ls o izvlečeni datoteki panja.

3. korak: Uredite datoteko " .bashrc ", da posodobite spremenljivke okolja za uporabnika.

Ukaz: sudo the .bashrc

Na koncu datoteke dodajte naslednje:

# Nastavite HIVE_HOME

Izvedite spodnji ukaz, da dokončate spremembe sprememb v trenutnem terminalu.

Ukaz: vir .bashrc

5. korak : Ustvariti moramo imenike Hive na lokaciji HDFS in v tem imeniku 'skladišče' bo mesto za shranjevanje metapodatkov v tabeli panja in podatkov, povezanih s Hive.

Ukaz :

  • hdfs dfs -mkdir -p / uporabnik / panj / skladišče
  • hdfs dfs -mkdir / tmp

6. korak : Spodaj nastavite dovoljenje za branje in pisanje za izvajanje tabele panja.

Ukaz:

Spodaj ukaz, ki dovoljuje pisanje dovoljenja za uporabniško skupino:

  • hdfs dfs -chmod g + w / uporabnik / panj / skladišče
  • hdfs dfs -chmod g + w / tmp

Konfiguriranje panja: Za konfiguracijo s Hadoopom je zelo pomembno, da namestite panj. Urediti moramo hive-env.sh, datoteko, ki je v direktoriju $ HIVE_HOME / conf. Naslednji ukazi preusmerijo v mapo Hive conf in kopirajo datoteko predloge:

7. korak : Nastavite Hadoop pot v hive-env.sh

Uredite hive-env.sh datoteko tako, da dodate naslednjo vrstico:

Zdaj smo s tem postopkom skoraj končani in namestitve panjev so uspešno zaključene, pomembno je, da Metastore konfigurirate z zunanjim strežnikom baz podatkov in da Apache Hive Framework privzeto uporablja Derbyjevo bazo podatkov. S spodnjim ukazom Inicializacija baze podatkov Derby.

Ukaz: bin / schematool -initSchema -dbType derby

8. korak : Zaženite panj .

Ukaz: panj (v drugem terminalu panj se odpre panj v terminalu.)

Delo s podjetjem Hive: Zdaj bomo videli nekaj operacij v panju in videli, koliko tabel imamo v privzeti uporabi baze podatkov, glejte spodnje posnetke zaslona, ​​na spodnjih posnetkih zaslona pa ne prikazuje nobene tabele, kar pomeni, da v privzeti bazi podatkov nimamo nobene tabele .

Za ustvarjanje tabele v panju je zelo pomembno, da se sklicuje na zahtevano bazo podatkov, sicer bo katera koli tabela ustvarjena pod privzeto bazo podatkov.

Pomembni ukazi v panju

1: prikaz podatkovnih baz (bodo prikazane vse baze podatkov, ki so bile do sedaj ustvarjene).

2: ustvarite bazo podatkov, če ne obstaja mydb (ta ukaz bo ustvaril eno bazo podatkov z imenom ' mydb', če ' mydb' ne obstaja in če ' mydb že obstaja, ne bo povzročil tudi napake')

3: uporabljamo bazo podatkov, kadar moramo v določeni bazi podatkov uporabiti kakšen ukaz DDl, uporabimo ukaz “use database”, v našem primeru pa smo že ustvarili ukaz mydb show mydb.

Pomemben ukaz DDL v panju

USTVARJAJ, Pusti, TRUNCAT, POKAŽI, OPIS .

  • Ustvari : - Ustvari izjavo, ki se uporablja za ustvarjanje baze podatkov ali ustvarjanje tabele v panju.

Primer: panj> ustvari bazo podatkov Podjetje; (ustvarjanje baze podatkov)

Panj> uporaba Podjetje;

Panj> ustvari zaposlenega v tabeli (id int, ime String, plača String); (to bo ustvarilo zaposlenega v tabeli v bazi podatkov Company, ker smo že izvedli ukaz Use database.)

  • Opis opisuje informacije o shemi tabele.

Panj> opišite zaposlenega; (to bo podrobno predstavilo shemo tabele zaposlenih)

  • TRUNCATE bo izbrisal podatke tabele.

Sodelavec> panj> zaposleni mize;

Panj lahko namestimo tudi na okno, za najboljšo prakso pa bom raje uporabil Ubuntu, da bo boljši pregled produkcijskega okolja, vaši podatki pa se bodo v prihodnosti povečali in ga bo enostavno upravljati.

Priporočeni članki

To je vodnik za namestitev panj. Tu smo razpravljali o različnih korakih za namestitev ukaza Hive, DDL itd. Če želite izvedeti več, si oglejte tudi naslednje članke:

  1. Kako namestiti strežnik SQL
  2. Kako namestiti MATLAB
  3. Ukazi in lastnosti panja
  4. Osnovna vprašanja o intervjuju s panjem
  5. Arhitektura panj | WorkFlow
  6. Uporaba ORDER BY Function v panju
  7. Namestitev panj

Kategorija: