Uvod v možnosti panj

Preden se pogovorimo o alternativah HIVE. Najprej razumemo, kaj je PIVO? Torej je HIVE v bistvu orodje za shranjevanje podatkov, ki je razvito na podlagi HDFS (Hadoop Distributed File System). Uporablja se za podajanje poizvedovalnega vmesnika v obliki SQL za poizvedovanje podatkov, ki so shranjeni v različnih datotekah, integriranih s Hadoopom. SQL podobne poizvedbe pretvori v opravila Map Reduce, ki pomagajo pri enostavni izvedbi velikih količin podatkov.

Lastnosti

Spodaj je nekaj funkcij Pive:

  • Tako kot SQL ima tudi svoj deklarativni jezik, imenovan HiveQL.
  • Ima strukturo tabel, podobno tabelam v bazi Relational, poleg tega pa nudi podporo za ETL (izvleček / podpora / obremenitev).
  • Zanimiva značilnost je, da omogoča pretvorbo formata znotraj HIVE-a.

Omejitev možnosti panj

Spoznajmo nekaj omejitev Pive:

  • Ni zasnovan za OLTP (spletna obdelava transakcij), vendar podpira OLAP (spletna analitična obdelava).
  • Pomembna omejitev je, da ne podpira posodobitev in brisanja.
  • V Hive tudi poizvedbe niso podprte.

5 Pomembne možnosti panj

Spodaj bomo razpravljali o petih pomembnih alternativah HIVE, prisotnih na trgu:

1. Apache Impala

Gre za odprtokodni mehanizem za vzporedno obdelavo poizvedb SQL za podatke, shranjene v računalniški grozdi z Apache Hadoop. Objavljena je bila v oktobru 2012. Spodaj so predstavljene značilnosti Apache Impala kot alternative HIVE-u.

  • Impala je dobra izbira za ljudi, ki vodijo poizvedbe SQL na Hadoop in Apache HBase, ne da bi preoblikovali podatke, saj za preoblikovanje ali premikanje podatkov ni potrebno, za razliko od HIVE.
  • Druga razlika med tema dvema je ustvarjanje poizvedbenih izrazov. Impala jih ustvari med izvajanjem z uporabo llvm, HIVE pa jih ustvari v času prevajanja.
  • Hive Poizvedbe ima problem hladnega zagona, kar ne velja za poizvedbe Impala, saj se v Impala demonskih procesih začnejo v času zagona, vedno pripravljeni za obdelavo poizvedbe, zaradi česar se izogne ​​težavi hladnega zagona.
  • Impala prepozna formate datotek Hadoop, varnost Hadoop, gonilnik ODBC.
  • Glavna USP impala je velika sila vzporedne obdelave. Impala je torej boljša alternativa, če začnemo nov projekt.

2. DB Presto

Presto je še ena alternativa za HIVE, ki ga je razvil facebook. Njegova USP je, da lahko v eni poizvedbi celo poizveduje podatke iz več virov. Spodaj so predstavljene značilnosti PrestoDB-ja kot alternative HIVE-u.

  • Presto je v pomnilniku porazdeljen poizvedovalnik SQL, kar je tudi zelo hitro, saj je poizvedovalnik Presto hiter in primeren za interaktivno analizo.
  • USP za Presto nad drugimi je njegov plug and play model z različnimi viri podatkov. Zaradi tega plug and play modela je združevanje poizvedb v različnih virih podatkov zelo enostavno s presto.
  • V Presto majhnih dimenzijah so združitvene tabele izdelane hitreje. Presto se odlikuje z večino drugih motorjev s porazdeljenimi poizvedbami.
  • Presto ni primeren za združitve velikih dejstev, saj ne uporablja diska in ne uporablja pomnilnika za obdelavo.
  • Pomembna točka Presto je dodelitev sredstev. Ima dodeljevanje virov na podlagi prednostne čakalne vrste.
  • Pomembno za dobro delovanje Prestoa je, da podpora UDF ni na voljo v presto, zaradi česar mora napisati svojo funkcijo, ki povečuje režijske stroške, saj mora biti zgrajena izključno za presto in ovira interoperabilnost.

3. Spark SQL

To je modul za strukturirano obdelavo podatkov in tudi odprtokodno kodo. Lahko deluje tudi kot porazdeljen poizvedovalnik SQL, poleg tega pa je en edinstven del tega, da ponuja programsko abstrakcijo, znano kot okvirji podatkov. Prvič je izšla leta 2014, ki jo je razvila Apache Software Foundation. Spodaj so nekatere značilnosti Spark SQL kot alternative HIVE-u.

  • Dobra stvar Spark SQL je, da se lahko izvaja v jeziku Java, Scala, Python in R, medtem ko je HIVE mogoče izvajati v jeziku Java.
  • V modelu primarne baze podatkov med HIVE in Spark obstaja popolna podobnost, saj je za oba modela primarne baze podatkov Relacijski DBMS.
  • Podoben je HIVE-u, ker oba podpirata trgovino Key-Value kot dodaten model baze podatkov.
  • Ima vnaprej določene vrste podatkov, kot so float in datum.
  • Podpira SQL, saj ima stavke DML in DDL.
  • Za razliko od HIVE, ki podpira JDBC, ODBC in Thrift, Spark SQL podpira le JDBC in ODBC.
  • Spark SQL uporablja iskrišče za shranjevanje podatkov v različna vozlišča.
  • Druga velika razlika med iskricami in HIVE-om so metode razmnoževanja: V HIVE-u je selektivni faktor podvajanja za shranjevanje odvečnih podatkov v več vozlišč, vendar v Spark SQL ni na voljo faktor razmnoževanja.
  • V Spark SQL za uporabnike ni pravic dostopa, medtem ko imamo v Apache Hive pravice dostopa za uporabnike, skupine.
  • Ne podpira transakcijske tabele in ne podpira vrste char.

4. Morski pes

Gre za odprtokodni poizvedovalnik SQL, ki je napisan v Scali. Zanimivo dejstvo Sharka je, da namesto da uporabi Map-Reduce za izvajanje poizvedb, uporablja svoje nabore delavskih vozlišč. Spodaj je nekaj značilnosti morskega psa:

  • Uporablja odjemalca ukazne vrstice.
  • Za deljenje shem ponuja interoperabilnost s podjetjem Hive.
  • Omogoča podporo obstoječim razširitvam panj, kot so UDF.

Še ni zelo znan, vendar ponuja alternativo HIVE.

5. IBM BigSQL

Zagotavlja ga Big Blue (IBM). IBM ima lastno distribucijo Hadoop z imenom Big Insights. Torej, Big SQL je na voljo kot del tega. Ni odprte kode, kot jo zagotavlja IBM. Spodaj so navedene nekatere stvari:

  • Podpirajo gonilnike JDBC in OJDBC.
  • Zagotavljajo podporo SQL
  • Uporabljajo se lahko za poizvedovanje po podatkih iz HDFS.

Priporočeni članki

To je vodnik za možnosti pive. Tukaj razpravljamo o lastnostih, omejevanju in 5 pomembnih alternativah za panje. Obiščite lahko tudi druge naše sorodne članke, če želite izvedeti več -

  1. Hadoop alternative
  2. Alternativa Tableau
  3. Nadomestne storitve Google Analytics
  4. Hadoop Streaming
  5. Naročilo za panj
  6. Namestitev panj
  7. Okvirji podatkov v R

Kategorija: