Uvod v podatkovno rudarjenje

Tu v tem članku bomo spoznali uvod v Podatkovno rudarjenje, saj so ljudje že stoletja rudili iz zemlje, da bi dobili vse vrste dragocenih materialov. Včasih med rudarjenjem odkrijemo stvari, ki jih nihče ni pričakoval. Na primer leta 1898, med izkopavanjem grobnice za iskanje mumij v Saqqari v Egiptu, je bil najden leseni artefakt, ki natanko spominja na letalo. Izhaja iz leta 200 pred našim štetjem, pred približno 2200 leti! Toda katere možne podatke bi lahko dobili iz velikega niza podatkov? In četudi ga začnemo rudariti, obstaja kakšna možnost, da bomo iz nabora podatkov dobili kakršne koli nepričakovane rezultate? Pred tem pa poglejmo, kaj natančno je Data Mining.

Kaj je podatkovno rudarjenje?

  • V bistvu gre za pridobivanje vitalnih informacij / znanja iz velikega niza podatkov.
  • Podatke si oglejte kot veliko zemeljsko / kamnito površino. Ne vemo, kaj je znotraj, ne vemo, ali je pod skalami nekaj koristnega.
  • V tem uvodu v Data Mining iščemo skrite podatke, vendar brez kakršne koli ideje o tem, kakšne vrste informacij želimo najti in za kaj jih nameravamo nekoč uporabiti.
  • Tako kot v tradicionalnem rudarstvu v konceptu, tudi v Data miningu obstajajo različne tehnike in orodja, ki se razlikujejo glede na vrsto podatkov, ki jih rudamo, zato smo razčistili, kaj je podatkovno rudarjenje s to temo uvoda v Data mining.

Primer podatkovnega rudarjenja

O uvodu v pridobivanje podatkov smo izvedeli v zgornjem razdelku in zdaj nadaljujemo s primeri rudarjenja podatkov, ki so navedeni spodaj:

  • Torej obstaja operater mobilnega omrežja. Posvetujejo se z rudarjenjem podatkov, da vkopljejo v evidenco klicev operaterja. Izvajalcu podatkov ni dodeljenih nobenih posebnih ciljev.
  • Določen je kvantitativni cilj iskanja najmanj 2 novih vzorcev v mesecu.
  • Ko rudar podatkov začne iskati podatke, ugotovi, da je v sredo manj mednarodnih klicev v primerjavi z drugimi dnevi.
  • Te informacije delijo z vodstvom in pripravijo načrt za znižanje mednarodnih stopenj klicev ob sredah in začnejo kampanjo.
  • Število klicev se hitro povečajo, stranke so zadovoljne z nizko ceno klica, več strank se prijavi in ​​podjetje zasluži več! Win-Win situacije!

Upoštevajoč zgornji primer, si oglejmo različne korake pri iskanju podatkov.

Koraki, vključeni v podatkovno rudarjenje

O uvodu v podatkovno rudarjenje smo izvedeli v zgornjem razdelku in zdaj napredujemo s koraki, ki so vključeni v pridobivanje podatkov, ki so navedeni spodaj:

  • Poslovno razumevanje

V tem Uvodu v pridobivanje podatkov bomo razumeli vse vidike poslovnih ciljev in potreb. Trenutno stanje se oceni z iskanjem virov, predpostavk in drugih pomembnih dejavnikov. V skladu s tem je vzpostavitev dobrega uvoda v načrt rudarjenja podatkov za doseganje ciljev poslovanja in podatkovnega rudarjenja.

  • Razumevanje podatkov

Na začetku se podatki zbirajo iz vseh razpoložljivih virov. Nato izberemo najboljši nabor podatkov, iz katerega lahko izvlečemo podatke, ki bi lahko bili bolj koristni.

  • Priprava podatkov

Ko je nabor podatkov identificiran, je izbran, očiščen, sestavljen in oblikovan v želeni obliki.

  • Podatkovno modeliranje

Gre za postopek preoblikovanja danih podatkov glede na zahteve uporabnika. na pripravljenem naboru podatkov bi bilo mogoče ustvariti enega ali več modelov, na koncu pa je treba modele natančno oceniti z vključenimi deležniki, da se prepriča, ali ustvarjeni modeli ustrezajo poslovnim pobudam.

  • Vrednotenje

To je eden najbolj potrebnih postopkov pri pridobivanju podatkov. Vključuje preiskovanje vseh vidikov postopka, da se preveri morebitna napaka ali uhajanje podatkov v procesu. Zaradi odkritih novih vzorcev bi se lahko povečale tudi nove poslovne zahteve.

  • Umestitev

Pomeni preprosto predstaviti znanje na tak način, da ga lahko zainteresirane strani uporabijo, kadar želijo. V našem zgornjem primeru je bilo ugotovljeno, da je mednarodnih klicev ob sredah manj, zato so bile te informacije predstavljene zainteresiranim stranem, ki so te podatke uporabile v svojo korist in povečale svoj dobiček.

Tehnike, uporabljene pri iskanju podatkov

V zgornjem razdelku smo izvedeli o uvedbi podatkovnega rudarjenja, zdaj nadaljujemo s tehnikami, ki se uporabljajo pri iskanju podatkov, ki so navedene spodaj:

  • Grozdna analiza

Cluster Analysis omogoča identifikacijo določene skupine uporabnikov glede na skupne značilnosti v bazi podatkov. Te značilnosti lahko vključujejo starost, geografski položaj, stopnjo izobrazbe in tako naprej.

  • Zaznavanje anomalije

Uporablja se za določitev, kdaj se kaj opazno razlikuje od običajnega vzorca. Uporablja se za odpravo morebitnih neskladnosti ali nepravilnosti v bazi pri viru.

  • Regresijska analiza

Ta tehnika se uporablja za oblikovanje napovedi na podlagi razmerij znotraj nabora podatkov. Na primer, lahko napovedujemo tečaj za določen izdelek z analizo preteklega tečaja in tudi z upoštevanjem različnih dejavnikov, ki določajo zaloge. Kot je prikazano spodaj, če imamo podatke o višini in teži različnih oseb, potem bi glede na katero koli višino ali težo lahko določili drugo vrednost.

  • Razvrstitev

Ta se ukvarja s tistimi, na katerih so nalepke. Upoštevajte, da pri odkrivanju grozdov stvari niso imele oznake in z uporabo podatkovnega rudarjenja smo morali označiti in oblikovati v grozde, vendar v klasifikaciji obstajajo informacije, ki jih je mogoče enostavno razvrstiti z algoritmom. Primer so filtri za neželeno pošto po e-pošti. Filter neželene pošte je na voljo tako z ustreznimi kot tudi nezaželenimi sporočili (Podatki o usposabljanju). Razlike med obema so ugotovljene, kar omogoča, da bodoče e-pošto pravilno razvrsti.

  • Pridružljivo učenje

Uporablja se za analizo, katere stvari se ponavadi pojavljajo skupaj v parih ali v večjih skupinah. Na primer, ljudje, ki kupujejo limone, kupujejo tudi pomaranče, ljudje, ki kupujejo kruh, kupujejo tudi mleko in tako naprej. Torej se nakupi, ki jih opravijo vsi kupci, analizirajo in stvari, ki se zgodijo skupaj, se postavijo blizu skupaj, da se poveča prodaja. Tako je mleko postavljeno blizu kruha, limone so postavljene poleg pomaranč in tako naprej.

Ali je rudarjenje podatkov etično?

Tako s prijateljem načrtujem izlet v Goo s prijateljem, po internetu iščem dobre kraje, ki jih lahko obiščem. Ko bom naslednjič odprl internet, najdem oglase o različnih hotelih v Goi za bivanje.

  • Dobra stvar?

Da, internet mi je pomagal poenostaviti potovanje. Konec koncev bi se moral, če se odločim za obisk Goe, nekje prespati in oglas, ki prikazuje hotel, je veliko bolj uporaben kot oglas, ki mi prikazuje naključna oblačila za nakup.

  • Slaba stvar?

Da! Zakaj bi podjetje za rudarjenje podatkov, za katerega še nikoli nisem slišal, vedelo, kam grem na dopust. Kaj pa, če o tem potovanju nisem nikomur povedal, ampak tu internet nenadoma ve, da grem tja. Resnica je, da je od tega odvisen poslovni model podjetja za rudarjenje podatkov. Te podatke zbirajo prek piškotkov in skriptov, nato jih prodajo oglaševalcem, ki mi poskušajo prodati še kaj drugega (v tem primeru hotelsko sobo).

Torej bi lahko bilo dobro ali slabo, odvisno od načina, na katerega gledamo. Prav tako lahko piškotke vedno izklopimo ali obiščemo anonimno v zgornjem primeru. Čeprav je tako, je ena stvar zagotovo. Izvajanje podatkov je tu, da ostanejo.

Priporočeni članki

To je vodnik za Uvod v pridobivanje podatkov. Tukaj razpravljamo o njegovem pomenu, tehnikah in korakih, ki so vključeni v uvod v iskanje podatkov s primerom za boljše razumevanje. Če želite izvedeti več, si oglejte tudi naslednje članke -

  1. Vprašanja o intervjuju za podatkovno rudarjenje
  2. Napovedna analitika v primerjavi z iskanjem podatkov
  3. Uvod v podatkovno znanost
  4. Kaj je regresijska analiza?

Kategorija: