Strojno učenje podatkovne znanosti - Vodnik za podatkovno strojno učenje

Uvod v podatkovno strojno učenje

Podatki so v bistvu informacije, zlasti dejstva ali številke, ki se zbirajo, da jih preučimo in upoštevamo ter uporabimo za pomoč pri odločanju ali informacije v elektronski obliki, ki jih lahko shrani in uporablja računalnik. Zdaj se bomo naučili definicije Data Science in strojnega učenja.

Data Science (DS) : Gre za zelo široko področje, kjer se uporabljajo različne tehnike, kot so statistične metode, znanstveni pristopi, arhitekturni procesi, različni algoritmi za pridobivanje pronicljivih informacij iz razpoložljivih podatkov, ki so lahko bodisi strukturirani ali nestrukturirani podatki.

Strojno učenje ( ML ): Je podmnožica Data Science. Pri strojnem učenju v osnovi s pomočjo statističnih modelov in različnih algoritmov se stroji usposabljajo, ne da bi dali jasna navodila, opira se na vzorce, ustvarjene s podatki. "

Pomen znanosti o podatkih

Živimo v dobi tehnologije, kjer vsak človek na tak ali drugačen način uporablja tehnologijo za udobje / učinkovitost / enostavnost, na primer mobilni telefon / prenosniki / tablice za komunikacijo, avtomobili / vlaki / avtobusi / letala za prevoz, storitve, kot so bančništvo / elektriko in še veliko več za lažje življenje.
Ob vsaki taki priložnosti ustvarjamo podatke zavestno ali nezavedno, kot so dnevniki klicev / besedila / družbeni mediji - slike / video posnetki / dnevniki so del podatkov, s prevozom pa je tudi naša navigacija do različnih lokacij z GPS / zmogljivostjo vozila, posneta prek ECU-ja del podatkov. Naše transakcije z bančnimi in mobilnimi denarnicami ustvarjajo ogromno podatkov, poraba električne energije na katerem koli območju ali v katerem koli sektorju je tudi del podatkov.
Če rečem, se ti podatki iz dneva v dan ali iz minute v minuto eksponentno povečujejo.
Zdaj se postavlja vprašanje, ali lahko s temi podatki kaj storimo? Ali lahko s temi podatki uporabimo nekaj koristnih spoznanj? Ali lahko povečamo učinkovitost? Ali lahko uporabimo te podatke za napovedovanje prihodnjih rezultatov?
Za odgovor na vsa taka vprašanja imamo področje, ki se imenuje podatkovna znanost.
Podatkovna znanost se lahko šteje za široko polje, ki obsega rudarjenje podatkov, inženiring podatkov, vizualizacijo podatkov, statistične metode integracije podatkov, programiranje R / python / SQL, strojno učenje, velike podatke in še več.

Zdaj pa razumemo pomembne koncepte znanosti o podatkih.

1. Podatkovni inženiring

Inženiring podatkov je eden od vidikov znanosti o podatkih, ki se osredotoča v glavnem na aplikacije, zbiranje in analizo podatkov. Vsa dela, ki jih opravljajo znanstveniki, želijo odgovoriti na več vprašanj, povezanih z napovedmi ali analizami, uporabljajo velik nabor informacij.

Zdaj so potrebne prave in koristne informacije, kar ustvarja potrebo po zbiranju in potrjevanju razpoložljivih informacij. Vse to so del inženirskih nalog. Nekatere od teh nalog so preverjanje ničelnih vrednosti (manjkajoči podatki), kategorizacija podatkov (kategorični podatki), ustvarjanje podatkovnih struktur (pravila pridružitve) itd.

2. Vizualizacija podatkov

Vizualizacija podatkov je grafični pristop za prikaz podatkov. Tu uporabljamo pythonovo vgrajeno knjižnico za ustvarjanje vizualnih elementov, na primer tabel, korelacijskih grafikonov, črtnih grafov, parnih grafov itd. Vizualizacija podatkov ima zelo pomembno vlogo pri zagotavljanju zelo enostavnega načina za analizo podatkov, ogled in razumevanje trendov, figur ven outliers itd.

3. Statistično razumevanje

Statistika igra zelo pomembno vlogo na področju znanosti o podatkih. Statistika je zelo zmogljivo orodje za izvajanje nalog Data Science (DS). Statistika uporablja matematiko za tehnično analizo razpoložljivih informacij. Z vizualizacijami, kot je vrstica ali grafikon, lahko dobimo informacije o trendih, vendar nam statistika pomaga, da s podatki ravnamo matematično / ciljno. Brez poznavanja podatkov je znanstvena vizualizacija le igra ugibanja.

Pogovarjali se bomo o nekaterih pomembnih statističnih metodah, ki jih znanstveniki podatkov uporabljajo vsakodnevno.

Srednja vrednost: Povprečje je v osnovi povprečje vseh podatkov, izračunano tako, da se dodajo vsi elementi podatkov in nato delijo s številnimi elementi. Uporablja se za identifikacijo srednje vrednosti vseh elementov.
Mediana: Mediana se uporablja tudi za iskanje srednje vrednosti razpoložljivih elementov, vendar so tukaj vsi podatki razporejeni po vrstnem redu in natančna srednja vrednost se šteje za mediano.

Če je število elementov liho, je mediana ((n + 1) / 2) pojem. Če je več elementov enakomerno, je mediana ((n / 2) + 1) pojem.

Način: Način je statistični parameter, ki opozarja na najpogostejše ali se vrednost, ki se pojavi največkrat, obravnava kot način.
Standardno odstopanje: Standardni odklon kaže, koliko razprostranjenosti je v podatkih ali pa je meritev za določitev razlike med srednjimi ali povprečnimi ali pričakovanimi vrednostmi.

Če imamo nizek standardni odklon, to pomeni, da je večina podatkovnih vrednosti blizu povprečne vrednosti. Če imamo visok standardni odklon, pomeni, da so naše podatkovne vrednosti bolj razširjene od srednje vrednosti.

Varianta: varianta je enaka kot standardni odklon z majhno razliko, je kvadrat standardnega odklona. Standardni odklon izhaja iz variance, ker Standardni odklon prikazuje širjenje v podatkih, medtem ko variance prikazuje razmik s kvadratom. Širjenje je enostavno korelirati z uporabo variance.
Povezava: Korelacija je eden najpomembnejših statističnih ukrepov, nakazuje, kako so spremenljivke v naboru podatkov povezane. Ko spremenimo en parameter, kako vpliva na drugi parameter.

Če imamo pozitivno korelacijsko vrednost, kar pomeni, da se bodo spremenljivke vzporedno povečale ali zmanjšale

Če imamo negativno korelacijsko vrednost, kar pomeni, da se bodo spremenljivke ob naraščanju obnašale obratno, se bodo zmanjšale in obratno.

V statistiki imamo verjetnostno porazdelitev, Bayesovo statistiko in testiranje hipotez, ki so prav tako zelo pomembno orodje za podatkovnega strokovnjaka.

Strojno učenje

Strojno učenje v osnovi pomeni način, s katerim se lahko stroji učijo in ustvarjajo rezultate na podlagi vhodnih funkcij.

Opredelitev: "Strojno učenje je študijsko polje, kjer se računalnik uči iz razpoložljivih podatkov / zgodovinskih podatkov, ne da bi bil izrecno programiran"

Pri strojnem učenju je poudarek na avtomatizaciji in izboljšanju učnega procesa računalnikov na podlagi njihovih izkušenj z vhodnimi podatki, kode pa ne bomo izrecno programirali za vsako vrsto težave, tj. Stroj bo razvil, kako pristopiti k težavi. Tu rezultati morda niso natančni, vendar je mogoče dobro napovedati.
Naj razumemo tako:

Ponavadi se računalniki uporabljajo za olajšanje postopka računanja. torej če imamo kakšen aritmetični izračun. Kaj bomo naredili? Pripravili bomo en računalniški program, ki bo reševal to operacijo enostavno in hitro. na primer, če želimo dodati dve osebi, bomo ustvarili en kos programske kode, ki bo vzel dva vhoda, v izhodu pa bo prikazal seštevanje.

Pri strojnem učenju je pristop drugačen, namesto da bi napajal neposredni algoritem, je v programsko kodo vložen poseben algoritem, ki bo poskušal prepoznati vzorec in na podlagi teh vzorcev poskušal napovedati najboljši možni rezultat. Tu ne algoritem izrecno kodiramo nobenega algoritma za kakšno določeno operacijo, temveč podatke hranimo v stroj, da se naučimo, kakšen je vzorec in kaj bi lahko bil rezultat.

Zakaj moramo zdaj iti na ta pristop, ko lahko neposredno s kodiranjem natančnega algoritma dosežemo natančne rezultate? Natančni algoritmi so zapleteni in so omejeni. Poglejmo ga z druge perspektive, to je obdobje, ko imamo veliko podatkov in vsak dan eksplodira, kot smo razpravljali v prejšnjem razdelku. Tu imamo opravka z nadzorovanim in nenadzorovanim učenjem.

Strojno učenje je danes zelo zanimivo, ker imamo veliko podatkov. Da bi imeli te podatke smiselne, moramo imeti nekaj pomembnih rezultatov ali nekaj pomembnih vzorcev, ki jih je mogoče analizirati in dati v resnično uporabo.

Pa vendar, zakaj nas zanima strojno učenje in ti podatki?

Vemo, da človeštvo samo predvaja zgodovino, kakršno smo takšni, kot smo bili prejšnje generacije, in tudi naši potomci se bodo soočili z več istimi situacijami, s katerimi se soočamo zdaj ali smo se soočili. Na tej stopnji si moramo predstavljati, kako se odzvati na prihodnost z uporabo zgodovinskih podatkov.
Tako zdaj vemo, da so podatki zelo dragocena prednost.

Izziv je, kako najbolje lahko uporabimo te razpoložljive podatke?

To je najbolj zanimiva tema (Kako?), Kjer bomo smiselno našli razpoložljive podatke. V osnovi obstajajo trije pristopi za strojno učenje:

Nadzorovano učenje
Nenadzorovano učenje
Okrepitveno učenje

Ti trije pristopi se uporabljajo za oblikovanje modela strojnega učenja, kot so (Linearna regresija, logistična regresija, naključni gozd, drevesa odločanja itd.).

Na voljo je veliko različnih modelov strojnega učenja, na primer:

Finance: odkrivanje goljufij
Trženje / prodaja: prilagodite priporočilo
Zdravstvo: ugotovite trend bolezni.

Zaključek - Strokovno učenje s področja podatkovnih znanosti

Podatkovna znanost je široko področje, ki je strojno učenje podvrsta. Pri tem analiziramo zgodovinske podatke, ki so na voljo pri nas, in skušamo napovedati najverjetnejše prihodnje izide.
Za napoved, da moramo podatke očistiti, urediti podatke (inženiring podatkov). S podatki v roki vizualiziramo vzorec / trende in nato s statističnim razumevanjem sklepamo na vpogledne informacije.
Ti podatki bodo podani v stroj s pomočjo algoritma Strojno učenje.
Ti algoritmi trenirajo stroj in ustvarijo en model strojnega učenja.
Ta model lahko nato uporabimo za napovedovanje.

Priporočeni članki

To je vodnik za podatkovno strojno učenje. Tukaj razpravljamo o pomembnosti znanosti o podatkih skupaj s strojnim učenjem. Če želite izvedeti več, si oglejte tudi naslednje članke -

Najboljši programi znanosti o podatkih
Podatkovne spretnosti
Jeziki znanosti o podatkih
Tehnike strojnega učenja
Kaj je integracija podatkov?
Kako se stolpec uporablja v Matlabu (primeri)
Drevo odločanja v strojnem učenju
Preprosti načini za ustvarjanje odločitvenega drevesa

Strojno učenje podatkovne znanosti - Vodnik za podatkovno strojno učenje

Kazalo:

Uvod v podatkovno strojno učenje

Pomen znanosti o podatkih

1. Podatkovni inženiring

2. Vizualizacija podatkov

3. Statistično razumevanje

Strojno učenje

Zaključek - Strokovno učenje s področja podatkovnih znanosti

Priporočeni članki

Sedanja vrednost formule rente - Kalkulator (s predlogo Excel)

Formula sedanje vrednosti - Kalkulator (primeri s predlogo Excel)

Trenutna vrednost v primerjavi s prihodnjo vrednostjo - 6 najboljših razlik (z infografiko)

Trenutna vrednost formule zaradi zapadlosti - Kalkulator (s predlogo Excel)

Trening predstavitvenih veščin - kako ga učinkovito razviti

Projekcije obratnega kapitala z uporabo predpostavk (koristno) - eduCBA

5 pomembnih navad, ki povečujejo učinkovitost vašega delovnega mesta

10 edinstvenih zakonov na delovnem mestu, ki jih vaš delodajalec morda krši

9 neverjetnih načinov za delo za mlajšega šefa

Politika na delovnem mestu - Najbolj se izogibajte in igrajte nasvete za igre

Sistemska programska orodja - Različne aplikacije in orodja

Preglednica tablice Tableau - Gradivo krogle v Tableauu

Tableau IF Izjava - Različice Tabela IF izjave s sintakso

Kontekstni filter Tableau - Kako ustvariti in odstraniti kontekstni filter Tableau?

Funkcije datumov Tableau - Različne vrste delovanja datuma v Tableau-u