Kaj je analiza podatkov?
Podatkovna analitika je postopek odkrivanja ključnih spoznanj in dragocenih zaključkov iz ogromne količine podatkov, zbranih ali zbranih iz različnih virov za podporo odločanju. Povečana računska moč, visoka hitrost obdelave. Pojav interaktivnih vmesnikov za končne uporabnike in dokazana učinkovitost paradigme porazdeljenega računalništva za obvladovanje velikih kosov podatkov je omogočila analizo podatkov za napredovanje na vseh področjih, zlasti v trgovini na drobno, bančništvu, zdravstvu, logistiki, obrambi, javni upravi itd.
Vrste analitike podatkov
Proces analitike podatkov je subjektivno razvrščen v tri vrste na podlagi namena analize podatkov kot
- Opisna analitika
- Predvidevanje Analytics
- Napisna analitika
Funkcije zgoraj naštetih vrst Analytics so opisane spodaj:
1. Opisna analitika
Opisna analitika se osredotoča na povzemanje preteklih podatkov, da bi izpeljali sklepe. Najpogosteje uporabljeni ukrepi za karakterizacijo distribucije zgodovinskih podatkov so količinsko vključeni
- Ukrepi osrednje nagnjenosti - srednja, srednja, četverica, način.
- Ukrepi spremenljivosti ali širjenja - domet, medkvartilni razpon, odstotek.
V zadnjem času težave in omejitve, povezane z zbiranjem, shranjevanjem in razumevanjem množice ogromnih podatkov, s postopkom statističnega sklepanja premagujemo. Splošni sklepi o statističnih podatkih o številu prebivalstva se izračunajo z uporabo metod vzorčenja, skupaj z uporabo teorije osrednjega omejevanja.
Vodilni televizijski voditelj zbira podrobnosti o glasovanju naključno izbranih volivcev na izhodu od ankete na volilni postaji, da pridobi statistične sklepe o preferencah celotnega prebivalstva.
Ponavljajoče vzorčenje podatkovnih skupin populacije povzroči koščke vzorcev z dovolj veliko velikostjo vzorca. V splošnem je priporočljivo grozdeno vzorčenje, da se ustvarijo dobro stratificirani in nepristranski predstavniki podatkovnih skupin prebivalstva. Statistični ukrep zanimanja se izračuna na vzorčnih odsekih podatkov, da se pridobi razdelitev statističnih vrednosti vzorcev, imenovana porazdelitev vzorčenja. Značilnosti porazdelitve vzorčenja so povezane s podatki podatkovne skupine prebivalstva z uporabo teorije osrednjega omejevanja.
2. Predvidevanje analitike
Predictive Analytics uporablja vzorce preteklih ali preteklih podatkov za oceno prihodnjih rezultatov, prepoznavanje trendov, odkrivanje potencialnih tveganj in priložnosti ali napovedovanje vedenja procesa. Ker so primeri uporabe predvidevanja verjetni, ti pristopi uporabljajo verjetnostne modele za merjenje verjetnosti vseh možnih izidov.
ChatBot na portalu za storitve strankam finančnega podjetja proaktivno spoznava namere strank ali potrebe, da temeljijo na njegovih preteklih dejavnostih na njeni spletni domeni. S predvidenim kontekstom se chatBot interaktivno pogovarja s stranko, da hitro zagotavlja storitve in doseže boljše zadovoljstvo strank.
Poleg scenarijev ekstrapolacije za napovedovanje, kaj se bo v prihodnosti dogajalo na podlagi razpoložljivih preteklih podatkov, obstaja malo aplikacij, ki ugibajo zgrešene vnose s pomočjo razpoložljivih vzorcev podatkov. Ta približek zgrešenih vrednosti v območju danih vzorcev podatkov tehnično imenujemo Interpolacija.
Zmogljiva aplikacija za urejanje slik podpira rekonstruiranje zamujenih delov teksture zaradi super vsiljenega besedila z interpoliranjem funkcijske funkcije v zgrešeni blok. Funkcijo funkcije lahko razlagamo kot matematični zapis vzorcev v teksturi izkrivljene slike.
Pomembni dejavniki, ki vplivajo na izbiro modelov / strategij predvidevanja, so:
- Natančnost napovedi: To pomeni stopnjo tesnosti med predvideno vrednostjo in dejansko vrednostjo. Manjša odstopanje razlike med predvideno vrednostjo in dejansko vrednostjo pomeni večjo natančnost modela predvidevanja.
- Hitrost napovedi: V aplikacijah za sledenje v realnem času je prednostna naloga visoka
- Stopnja učenja modela: Odvisno je od kompleksnosti modela in izračunov, ki so vključeni v izračun parametrov modela.
3. Napisna analitika
Prescriptive Analytics uporablja znanje, odkrito kot del opisne in napovedne analize, da priporoči kontekstni potek ukrepov. Za razumevanje porazdelitve ocenjenih napovedi se izvajajo napredne statistične tehnike in računsko intenzivne metode optimizacije.
Natančno se oceni vpliv in korist vsakega izida, ki se oceni med prediktivno analitiko, da se sprejmejo hevristične in časovno občutljive odločitve za dani niz pogojev.
Podjetje za svetovanje na borzi izvaja SWOT (moč, šibkost, priložnosti in grožnje) analizo predvidenih cen zalog v portfelju vlagateljev in svojim strankam priporoča najboljše možnosti nakupa in prodaje.
Procesni tok v analitiki podatkov
Proces analitike podatkov ima različne stopnje obdelave podatkov, kot je razloženo spodaj:
1. Pridobivanje podatkov
Zaužitje podatkov iz več različnih podatkovnih virov, vključno s spletnimi stranmi, bazami podatkov, starejšimi aplikacijami, povzroči vhodne naloge podatkov različnih formatov. Formati podatkov, vneseni v tok analitike podatkov, se lahko na splošno klasificirajo kot
- Strukturirani podatki imajo jasno definicijo vrst podatkov, skupaj s pripadajočo dolžino polja ali ločevalniki polja. To vrsto podatkov je mogoče enostavno poizvedovati, kot je vsebina, shranjena v relacijski zbirki podatkov (RDBMS)
- Polstrukturirani podatki nimajo natančne definicije postavitve, vendar lahko podatkovne elemente identificiramo, ločimo in združimo na podlagi standardne sheme ali drugih pravil metapodatkov. Datoteka XML uporablja označevanje za shranjevanje podatkov, medtem ko datoteka datoteke z notacijo objekta Javascript (JSON) hrani podatke v parih ime-vrednost. Podatkovne baze NoSQL (ne samo SQL), kot je MongoDB, pa tudi baza kavč se uporabljajo za shranjevanje polstrukturiranih podatkov.
- Nestrukturirani podatki vključujejo pogovore v družabnih medijih, slike, zvočne posnetke itd. Tradicionalni načini za analizo podatkov teh podatkov ne razumejo. Nestrukturirani podatki so shranjeni v podatkovnih jezerih.
Izvajanje razčlenitve podatkov za strukturirane in polstrukturirane podatke je vključeno v različna orodja ETL, kot so Ab Initio, Informatica, Datastage in odprtokodne alternative, kot je Talend.
2. Čiščenje in preoblikovanje podatkov
Čiščenje razčlenjenih podatkov poteka tako, da se zagotovi doslednost podatkov in razpoložljivost ustreznih podatkov za poznejše faze v toku postopka. Glavne čistilne operacije v analizi podatkov so:
- Zaznavanje in odstranjevanje ostankov v količinah podatkov
- Odstranjevanje dvojnikov v naboru podatkov
- Ravnanje z manjkajočimi vnosi v zapisih podatkov z razumevanjem funkcionalnosti ali primerov uporabe
- Poveritve dovoljenih vrednosti polj v zapisih podatkov, kot je „31. februar“, ne morejo biti veljavna vrednost v nobenem od datumskih polj.
Očiščeni podatki se pretvorijo v primeren format za analizo podatkov. Preoblikovanje podatkov vključuje
- Filter nezaželenih zapisov podatkov.
- Pridružitev podatkom, pridobljenim iz različnih virov.
- Združevanje ali združevanje podatkov
- Razvrščanje podatkov
3. Izvajanje KPI / vpogleda
Data Mining, metode poglobljenega učenja se uporabljajo za ocenjevanje ključnih kazalnikov uspešnosti (KPI) ali pridobivanje dragocenih spoznanj iz očiščenih in preoblikovanih podatkov. Na podlagi analitičnega cilja se analiza podatkov izvaja z uporabo različnih tehnik prepoznavanja vzorcev, kot so k-pomeni grozd, klasifikacija SVM, Bayesovih klasifikatorjev itd. In modelov strojnega učenja, kot so Markovi modeli, Gaussovi modeli mešanic (GMM) itd.
Verjetnostni modeli v fazi usposabljanja se naučijo optimalnih parametrov modela, v fazi validacije pa se preskusi z uporabo navzkrižnega preverjanja k-krat, da se prepreči prekomerno prileganje in napake pri namestitvi.
Najpogosteje uporabljeni programski jezik za analizo podatkov sta R in Python. Obe imata bogat nabor knjižnic (SciPy, NumPy, Pandas), ki so odprte za izvajanje kompleksne analize podatkov.
4. Vizualizacija podatkov
Vizualizacija podatkov je postopek jasne in učinkovite predstavitve neodkritih vzorcev, ki izhajajo iz podatkov s pomočjo grafov, grafov, nadzornih plošč in grafike.
- Orodja za poročanje podatkov, kot so QlikView, Tableau itd., Prikazujejo KPI in druge izpeljane meritve na različnih ravneh.
- Orodja za poročanje končnim uporabnikom omogočajo ustvarjanje prilagojenih poročil z vrtilnimi, vrtalnimi možnostmi s pomočjo uporabniku prijaznih vmesnikov povleci in spusti
- Interaktivne knjižnice za vizualizacijo podatkov, kot so D3.js (dokumenti, ki jih vodijo podatki), HTML5-Anycharts itd., Se uporabljajo za povečanje sposobnosti raziskovanja analiziranih podatkov
Priporočeni članki
To je vodnik za Kaj je analiza podatkov. Tu smo razpravljali o različni vrsti analitike podatkov s potekom procesa. Če želite izvedeti več, lahko preberete tudi druge predlagane članke -
- Vprašanja in odgovori Intervju analitika podatkov
- Kaj je vizualizacija podatkov?
- Kaj je analiza velikih podatkov?
- Kaj je Minitab?