Ali je Hadoop Open Source? - Osnovni koncept in značilnosti Hadoopa

Kazalo:

Anonim

Uvod v Hadoop Open Source?

Hadoop se uradno imenuje Apache Hadoop. Apache Hadoop je projekt najvišje ravni skupnosti Apache. Apache Hadoop je projekt Apache Software Foundation in odprtokodna programska platforma. Apache Hadoop je zasnovan za prilagodljivo odstopanje napak in porazdeljeno računalništvo. Hadoop lahko zagotovi hitro in zanesljivo analizo tako strukturiranih podatkov kot nestrukturiranih podatkov. Odprta programska oprema je programska oprema z izvorno kodo, ki jo lahko vsakdo pregleda, spremeni in izboljša. Open Source je certifikacijski standard, ki ga izda Open Source Initiative (OSI), ki navaja, da je izvorna koda računalniškega programa na voljo brezplačno na voljo širši javnosti. Odprtokodna programska oprema se običajno distribuira z izvorno kodo pod licenco za odprto kodo. Odprta koda je navadno ustvarjena kot skupen trud, v katerem programerji izboljšajo kodo in delijo spremembe znotraj skupnosti. Programska oprema se zelo hitro posodablja v skupnosti Apache. Vsak programer ali podjetje lahko spremeni izvorno kodo v skladu s svojimi zahtevami in na platformo Apache Community lahko izda novo različico programske opreme.

Značilnosti Hadoopa

Kot smo že preučili o uvodu v odprtokodni vir Is Hadoop, zdaj spoznavamo značilnosti Hadoopa:

  • Odprtokodno -

Najbolj privlačna značilnost Apache Hadoop je ta, da je odprtokoden. Pomeni, da je Hadoop open source brezplačen. Vsakdo ga lahko prenese in uporablja osebno ali profesionalno. Če sploh pride do kakršnih koli stroškov, bi bila to verjetno blaga blaga za shranjevanje ogromnih količin podatkov. A to še vedno naredi Hadoop poceni.

  • Blagovna strojna oprema -

Apache Hadoop deluje na robni strojni opremi. Blagovna strojna oprema pomeni, da se ne držite niti enega samega ponudnika za vašo infrastrukturo. Vsako podjetje, ki nudi strojne vire, kot je Storage Unit, CPU z nižjimi stroški. Definitivno se lahko preselite v takšna podjetja.

  • Poceni -

Hadoop Framework temelji na osnovni strojni opremi in odprtokodnem programskem okviru. Zniža stroške, medtem ko jih sprejme v organizacijo ali novo naložbo za svoj projekt.

  • Prilagodljivost -

Lastnost sistema ali aplikacije je, da upravlja večje količine dela ali da ga je mogoče enostavno razširiti kot odgovor na povečano povpraševanje po omrežju, obdelavi, dostopu do baze podatkov ali virih datotečnega sistema. Hadoop je zelo razširljiva platforma za shranjevanje. Prilagodljivost je zmožnost nečesa, da se sčasoma prilagodi spremembam. Spremembe običajno vključujejo rast, zato je velika konotacija, da bo prilagoditev nekakšna širitev ali nadgradnja. Hadoop je vodoravno razširljiv. To pomeni, da lahko v obstoječo infrastrukturo dodate poljubno število vozlišč ali strojev. Recimo, da delate na 15 TB podatkov in 8 strojih v vašem grozdu. Pričakujete 6 TB podatkov prihodnji mesec. Toda vaš grozd lahko prenese le 3 TB več. Hadoop vam ponuja funkcijo vodoravnega skaliranja - to pomeni, da lahko dodate poljubno številko sistema, glede na vaše zahteve po grozdu.

  • Zelo robusten-

Zaradi odpornosti napak Hadoop je resnično priljubljen. Hadoop vam omogoča funkcije, kot je faktor replikacije. To pomeni, da se vaši podatki razmnožujejo na druga vozlišča, kot jih določa faktor podvajanja. Vaši podatki so varni in varni pred drugimi vozlišči. Če se grozd kdaj zgodi, se podatki samodejno prenesejo na drugo lokacijo. To bo zagotovilo nadaljevanje obdelave podatkov brez kakršnih koli pripetljajev.

  • Raznolikost podatkov -

Okvir Apache Hadoop vam omogoča, da se ukvarjate s poljubno velikostjo podatkov in kakršno koli vrsto podatkov. Okvir Apache Hadoop vam pomaga pri delu na velikih podatkih. Shranjevali in obdelovali boste lahko strukturirane podatke, polstrukturirane in nestrukturirane podatke. Niste omejeni na nobene formate podatkov. Niste omejeni na nobeno količino podatkov.

  • Več okvirov za velike podatke -

Obstajajo različna orodja za različne namene. Hadoop okvir ima široko paleto orodij. Hadoop okvir je razdeljen na dva sloja. Shranjevalni sloj in procesni sloj. Skladiščni sloj se imenuje Hadoop Distributed File System, procesni sloj pa se imenuje Map Reduce. Zgoraj na HDFS se lahko integrirate v poljubna orodja, ki jih podpira Hadoop Cluster. Hadoop je mogoče integrirati z več analitičnimi orodji, da bi kar najbolje izkoristili, kot so Mahout za strojno učenje, R in Python za analitiko in vizualizacijo, Python, Spark za obdelavo v realnem času, MongoDB in HBase za bazo podatkov NoSQL, Pentaho za BI itd. Lahko se vključi v orodja za obdelavo podatkov, kot sta Apache Pive in Apache Pig. Lahko je integriran z orodji za odvzem podatkov, kot sta Apache Sqoop in Apache Flume.

  • Hitra obdelava -

Medtem ko lahko tradicionalni postopki ETL in paketov trajajo ure, dneve ali celo tedne za nalaganje velikih količin podatkov, je potreba po analizi, da podatki v realnem času iz dneva v dan postajajo kritični. Hadoop je zaradi svoje zmožnosti vzporedne obdelave izredno dober pri velikih količinah serijske obdelave. Hadoop lahko izvaja paketne procese 10-krat hitreje kot na strežniku z enim navojem ali v osnovnem okviru. Orodja za obdelavo podatkov so pogosto na istih strežnikih, kjer se nahajajo podatki, kar ima za posledico veliko hitrejšo obdelavo podatkov. Če imate opravka z veliko količino nestrukturiranih podatkov, je Hadoop sposoben učinkovito obdelati terabajte podatkov v samo nekaj minutah, petabajte pa v urah.

  • Enostaven za uporabo -

Hadoop okvir temelji na Java API-ju. Med razvijalci Hadoop ne obstaja veliko tehnoloških vrzeli kot razvijalec. Okvir zmanjšanja zemljevidov temelji na Java API-ju. Potrebujete kodo in algoritem napišete na JAVA. Če delate na orodjih, kot je Apache Pive. Temelji na SQL. Vsak razvijalec, ki ima ozadje baze podatkov, lahko preprosto sprejme Hadoop in lahko dela na Hiveju kot orodju.

Zaključek: Ali je Hadoop Open source?

2.7 Zeta bajtov podatkov danes obstaja v digitalnem vesolju. Big Data bo v prihodnjem desetletju prevladoval v okolju za shranjevanje in obdelavo podatkov. Podatki bodo osrednji model za rast poslovanja. Obstaja zahteva po orodju, ki bo ustrezalo vsem tem. Hadoop je primeren za shranjevanje in obdelavo velikih podatkov. Vse zgoraj naštete funkcije Big Data Hadoop omogočajo široko sprejemljiv Hadoop. Big Data bo središče vseh orodij. Hadoop je ena od rešitev za delo na Big Data.

Priporočeni članek

To je vodilo o Is Hadoop open source. Tukaj razpravljamo tudi o osnovnih pojmih in značilnostih Hadoopa. Za več informacij si lahko ogledate tudi naslednje članke -

  1. Uporaba Hadoopa
  2. Hadoop proti Spark
  3. Poklic v Iskri
  4. Hadoop Administrator Jobs
  5. Hadoop administrator | Spretnosti in poklicna pot