Uvod v metode rudarjenja podatkov

Podatki se ogromno povečujejo vsak dan. Toda vsi zbrani ali zbrani podatki niso uporabni. Pomembni podatki morajo biti ločeni od hrupnih podatkov (nesmiselni podatki). Ta postopek ločevanja poteka s pridobivanjem podatkov.

Kaj je podatkovno rudarjenje?

Pridobivanje podatkov je postopek pridobivanja koristnih informacij ali znanja iz ogromne količine podatkov (ali velikih podatkov). Razkorak med podatki in informacijami se je zmanjšal z uporabo različnih orodij za rudarjenje podatkov. Izvajanje podatkov lahko imenujemo tudi odkritje znanja iz podatkov ali KDD .

Viri: - www.ques10.com

Izvajanje podatkov se lahko izvaja v različnih vrstah baz podatkov in shramb informacij, kot so relacijske baze podatkov, skladišča podatkov, transakcijske baze podatkov, podatkovni tokovi in ​​še veliko več.

Različne metode pridobivanja podatkov:

Za podatkovno rudarjenje se uporablja veliko metod, vendar je ključni korak, da izberemo ustrezno metodo iz njih glede na podjetje ali težavo. Te metode pridobivanja podatkov pomagajo pri napovedovanju prihodnosti in nato v skladu s tem pri odločanju. Te pomagajo tudi pri analizi tržnih gibanj in pri povečanju prihodkov podjetja.

Nekateri načini podatkovnega rudarjenja so:

  • Združenje
  • Razvrstitev
  • Grozdna analiza
  • Napoved
  • Zaporedni vzorci ali sledenje vzorcem
  • Drevesa odločanja
  • Zunanja analiza ali analiza anomalije
  • Zivcno omrezje

Dovolite nam, da razumemo vsakega načina pridobivanja podatkov, enega za drugim.

1. Združenje:

To je metoda, ki se uporablja za iskanje povezave med dvema ali več postavkami z identificiranjem skritega vzorca v naboru podatkov, zato se imenuje tudi kot analiza razmerja . Ta metoda se uporablja pri analizi tržnih košar, da se napove vedenje stranke.

Recimo, da želi vodja trženja supermarketa ugotoviti, katere izdelke pogosto kupujemo skupaj.

Kot primer oz.

Kupuje (x, "pivo") -> kupuje (x, "čips") (podpora = 1%, zaupanje = 50%)

  • Tukaj x predstavlja stranko, ki skupaj kupuje pivo in čips.
  • Zaupanje kaže na gotovost, da če stranka kupi pivo, obstaja 50-odstotna možnost, da bo kupil tudi čips.
  • Podpora pomeni, da je 1% vseh analiziranih transakcij pokazalo, da sta pivo in čips kupljena skupaj.

Obstaja veliko podobnih primerov, kot so kruh in maslo ali računalnik in programska oprema.

Obstajata dve vrsti Pridružitvenih pravil:

  • Pravilo enodimenzionalne asociacije: Ta pravila vsebujejo en atribut, ki se ponovi.
  • Pravilo večdimenzionalne povezave: Ta pravila vsebujejo več atributov, ki se ponavljajo.

https://bit.ly/2N61gzR

2. Razvrstitev:

Ta metoda rudarjenja podatkov se uporablja za razlikovanje postavk v zbirkah podatkov v razrede ali skupine. Pomaga natančno napovedati vedenje predmetov znotraj skupine. Gre za dvostopenjski postopek:

  • Korak učenja (faza usposabljanja): V tem algoritmu klasifikacije gradi klasifikator z analizo vadbe.
  • Korak klasifikacije: Podatki preskusa se uporabljajo za oceno natančnosti ali natančnosti pravil razvrščanja.

Na primer, bančna družba uporablja za identifikacijo vlagateljev posojil z nizkimi, srednjimi ali visokimi kreditnimi tveganji. Podobno medicinski raziskovalec analizira podatke o raku, da napove, katero zdravilo bolniku predpisati.

Viri: - www.tutorialspoint.com

3. Grozdna analiza:

Grozd je skoraj podoben razvrstitvi, vendar so v teh skupinah narejene glede na podobnost podatkovnih postavk. Različni grozdi imajo različne ali nepovezane predmete. Imenujejo ga tudi kot segmentacija podatkov, saj v skladu s podobnostjo deli ogromne nabore podatkov v grozde.

Uporabljajo se različne metode združevanja v skupine:

  • Hierarhične aglomerativne metode
  • Metode na osnovi mrež
  • Načini razdelitve
  • Metode, ki temeljijo na modelu
  • Metode, ki temeljijo na gostoti

Podoben primer prosilcev za posojilo je mogoče obravnavati tudi tukaj. Na spodnji sliki je nekaj razlik.

https://bit.ly/2N6aZpP

4. Napoved:

Ta metoda se uporablja za napovedovanje prihodnosti na podlagi preteklih in sedanjih trendov ali nabora podatkov. Napoved se večinoma uporablja s kombinacijo drugih metod rudarjenja podatkov, kot so klasifikacija, ujemanje vzorcev, analiza trendov in povezava.

Na primer, če želi vodja prodaje v supermarketu napovedati znesek prihodka, ki bi ga vsak izdelek ustvaril na podlagi preteklih prodajnih podatkov. Modelira stalno vrednostno funkcijo, ki napoveduje manjkajoče številčne vrednosti podatkov.

Viri: - data-mining.philippe-fournier

Regresijska analiza je najboljša izbira za napovedovanje. Z njim lahko določite razmerje med neodvisnimi spremenljivkami in odvisnimi spremenljivkami.

5. Zaporedni vzorci ali sledenje vzorcem:

Ta metoda pridobivanja podatkov se uporablja za prepoznavanje vzorcev, ki se pogosto pojavljajo v določenem časovnem obdobju.

Na primer, vodja prodaje oblačilnega podjetja opazi, da se zdi, da se prodaja suknjičev povečuje tik pred zimsko sezono ali pa se prodaja v pekarnah povečuje med božičnim ali novoletnim predvečerjem.

Poglejmo primer z grafom

Viri: - data-mining.philippe-fournier-viger

6. drevesa natančnosti:

Odločilno drevo je drevesna struktura (kot že ime pove), kjer

  • Vsako notranje vozlišče predstavlja preizkus atributa.
  • Podružnica označuje rezultat testa.
  • Terminalna vozlišča imajo oznako razreda.
  • Zgornje vozlišče je korensko vozlišče, ki ima preprosto vprašanje, ki ima dva ali več odgovorov. Skladno s tem drevo raste in ustvari se diagram poteka kot struktura.

Viri: - www.tutorialride.com

V tej odločitvi vlada drevesa razvrsti državljane, mlajše od 18 let ali več od 18 let. To jim bo pomagalo pri odločitvi, ali mora biti določenemu državljanu izdano dovoljenje ali ne.

7.Različna analiza ali analiza anomalije:

Ta metoda pridobivanja podatkov se uporablja za prepoznavanje podatkovnih postavk, ki niso v skladu s pričakovanim vzorcem ali pričakovanim vedenjem. Ti nepričakovani podatki se štejejo za odtujitve ali hrup. Koristni so na številnih področjih, kot so odkrivanje goljufij s kreditno kartico, odkrivanje vdorov, odkrivanje napak itd. Temu pravimo tudi Outlier Mining .

Denimo, da je spodnji graf narisan z uporabo nekaterih nizov podatkov v naši podatkovni bazi.

Torej je narisana najbolj primerna črta. Točke, ki ležijo v bližini črte, kažejo pričakovano vedenje, točka daleč od črte pa je Outlier.

To bi pomagalo odkriti nepravilnosti in ustrezno ukrepati.

https://bit.ly/2GrgjDP

8. Nevronska mreža:

Ta metoda ali model rudarjenja podatkov temelji na bioloških nevronskih mrežah. To je zbirka nevronov, kot so procesne enote s tehtanimi povezavami med njimi. Uporabljajo se za modeliranje razmerja med vhodi in izhodi. Uporablja se za razvrščanje, regresijsko analizo, obdelavo podatkov itd. Ta tehnika deluje na treh stebrih -

  • Model
  • Algoritem učenja (nadzorovan ali nenadzorovan)
  • Aktivacijska funkcija

Viri: - www.saedsayad.com

Priporočeni članki

To je vodnik za metode podatkovnega rudarjenja Tu smo na primeru razpravljali o tem, kaj je podatkovno rudarjenje in različne vrste metod rudarjenja podatkov. Če želite izvedeti več, si oglejte tudi naslednje članke -

  1. Programska oprema Big Data Analytics
  2. Vprašanja o intervjuju s strukturo podatkov
  3. Pomembne tehnike pridobivanja podatkov
  4. Arhitektura podatkovnega rudarjenja

Kategorija: