Algoritmi za znanost podatkov - Pregled in vrste algoritmov znanosti o podatkih

Uvod v algoritme znanosti o podatkih

Opis na visoki ravni osnovnih algoritmov, ki se uporabljajo v Data Science. Kot že veste, je podatkovna veda področje preučevanja, kjer se odločitve temeljijo na spoznanjih, ki jih dobimo iz podatkov, namesto klasičnih determiniranih pristopov, ki temeljijo na pravilih. Običajno lahko nalogo strojnega učenja razdelimo na tri dele

Pridobivanje podatkov in preslikavo poslovnega problema,
Uporaba tehnik strojnega učenja in opazovanje meritev uspešnosti
Testiranje in uvajanje modela

V celotnem življenjskem ciklu za reševanje naloge uporabljamo različne algoritme znanosti o podatkih. V tem članku bomo razdelili najpogosteje uporabljene algoritme glede na njihove vrste učenja in o njih bomo razpravljali na visoki ravni.

Vrste algoritmov znanosti o podatkih

Na osnovi učnih metodologij lahko preprosto razdelimo algoritme strojnega učenja ali podatkovnih znanosti na naslednje vrste

Nadzorovani algoritmi
Nenadzorovani algoritmi

1. Nadzorovani algoritmi

Kot že ime pove, so nadzorovani algoritmi razred algoritmov strojnega učenja, kjer se model usposablja z označenimi podatki. Na primer, na podlagi preteklih podatkov želite napovedati, da bo stranka posojilo neplačala ali ne. Po predhodni obdelavi in snovanju značilnosti označenih podatkov se nadzorovani algoritmi usposobijo nad strukturiranimi podatki in preizkusijo na novi podatkovni točki ali v tem primeru napovedujejo neplačilo kredita. Potopimo se v najbolj priljubljene algoritme nadzorovanega strojnega učenja.

K Najbližji sosedje

K najbližji sosedje (KNN) je eden najpreprostejših, vendar močnih algoritmov strojnega učenja. Gre za nadzorovan algoritem, pri katerem se razvrščanje izvede na podlagi k najbližjih podatkovnih točk. Ideja KNN je, da se podobne točke združijo skupaj, z merjenjem lastnosti najbližjih podatkovnih točk lahko razvrstimo testno podatkovno točko. Na primer rešujemo standardno klasifikacijsko težavo, pri kateri želimo napovedati, da podatkovna točka pripada razredu A ali razredu B.Ko je k = 3, bomo preizkusili 3 najbližje podatkovne točke preskusne podatkovne točke, če dve izmed njih pripadata razredu A preskusno točko podatkov bomo razglasili za razred A, sicer razred B. Pravo vrednost K najdemo s navzkrižno validacijo. Ima linearno časovno zapletenost, zato je ni mogoče uporabiti za aplikacije z nizko zamudo.

Linearna regresija

Linearna regresija je nadzorovan algoritem znanosti o podatkih.

Izhod:

Spremenljivka je neprekinjena. Ideja je najti hiperplano, kjer je največje število točk v hiperplanu. Na primer, napovedovanje količine dežja je standardni regresijski problem, kjer se lahko uporablja linearna regresija. Linearna regresija predvideva, da je razmerje med neodvisnimi in odvisnimi spremenljivkami linearno in je večkolinearnosti zelo malo ali pa jih ni.

Logistična regresija

Čeprav ime pravi regresija, je logistična regresija nadzorovan klasifikacijski algoritem.

Izhod:

Geometrična intuicija je, da lahko ločimo različne nalepke razreda z uporabo linearne meje odločitve. Izhodna spremenljivka logistične regresije je kategorična. Upoštevajte, da srednje logistične napake ne moremo uporabiti kot stroškovno funkcijo za logistično regresijo, saj je za logistično regresijo nekonveksna.

Podporni vektorski stroj

V logistični regresiji je bil naš glavni moto iskanje ločevalne linearne površine.

Izhod:

Podporni vektorski stroj lahko obravnavamo kot razširitev te ideje, kjer moramo najti hiperplano, ki maksimira maržo. Toda kaj je marža? Za vektor W (odločitveno površino, ki jo moramo pripraviti) narišemo dve vzporedni črti na obeh straneh. Razdalja med tema dvema črtama se imenuje rob. SVM predpostavlja, da so podatki linearno ločljivi. Čeprav lahko SVM za nelinearne podatke uporabimo tudi trik Kernel.

Drevo odločitve

Drevo odločanja je ugnezdeni klasifikator If-Else, ki za odločitev uporablja drevesno strukturo grafa. Drevesa odločitev so zelo priljubljena in eden najbolj uporabljanih nadzorovanih algoritmov strojnega učenja na celotnem področju znanosti o podatkih. Omogoča boljšo stabilnost in natančnost v večini primerov primerjalno kot drugi nadzorovani algoritmi in zanesljiv za odpuščene. Izhodna spremenljivka odločitvenega drevesa je običajno kategorična, vendar se lahko uporablja tudi za reševanje regresijskih težav.

Ansambli

Ansambli so priljubljena kategorija algoritmov znanosti o podatkih, kjer se za izboljšanje zmogljivosti uporablja več modelov skupaj. Če poznate Kaggle (platforma google za vadbo in tekmovanje v izzivih na področju podatkov), boste našli večino rešitev za zmagovalce z uporabo nekakšnih ansamblov.

Skupine lahko v grobem razdelimo na naslednje kategorije

Vrečka
Povečanje
Zlaganje
Kaskadno

Naključna gozdna drevesa, ki spodbujajo odločitve, so primeri nekaterih priljubljenih algoritmov ansambla.

2. Nenadzorovani algoritmi

Nenadzorovani algoritmi se uporabljajo za naloge, pri katerih so podatki neoznačeni. Najbolj priljubljen primer nenadzorovanih algoritmov je grozdenje. Grozd je naloga združevanja podobnih podatkovnih točk brez ročnega posredovanja. Tukaj razpravljamo o nekaterih priljubljenih nenadzorovanih algoritmih strojnega učenja

K Pomeni

K Means je randomiziran nenadzorovan algoritem, ki se uporablja za združevanje.K Means sledi spodnjim korakom

1. Naključno aktivirajte K točke (c1, c2..ck)

2. Za vsako točko (Xi) v podatkovnem nizu

Izberite najbližji Ci (i = 1, 2, 3..k)

Dodajte Xi v Ci

3. Izračunajte centroide z uporabo ustreznih meritev (tj. Intraklaster razdalje)

4, ponovite korak (2) (3), dokler se ne zbliža

K Pomeni ++

Korak inicializacije v K pomeni čisto naključno in na podlagi inicializacije se grozdenje drastično spremeni. K pomeni, da ++ rešuje ta problem tako, da inicializira k na verjetnostni način namesto s čisto randomizacijo. K pomeni, da je ++ bolj stabilen kot klasični K.

K Medoidi:

K medoidi so tudi algoritmi združevanja, ki temeljijo na sredstvih K. Glavna razlika med obema je, da centroidi K pomeni, da v zbirki podatkov ne obstaja nujno, kar pa ne velja za K medoide. K medoidi ponujajo boljšo interpretacijo grozdov. K pomeni minimiziranje skupne napake v kvadratu, medtem ko K medoidi zmanjšajo razlike med točkami.

Zaključek

V tem članku smo razpravljali o najbolj priljubljenih algoritmih strojnega učenja, ki se uporabljajo na področju znanosti o podatkih. Po vsem tem vam lahko pride na misel vprašanje, kateri algoritem je najboljši? " Jasno, da tukaj ni zmagovalca. Odvisno je samo od naloge, ki je na voljo, in poslovnih zahtev. Kot najboljša praksa se vedno začne z najpreprostejšim algoritmom in zapletenost postopoma povečuje.

Priporočeni članki

To je vodnik po algoritmih Science Science. Tukaj smo obravnavali pregled algoritmov znanosti o podatkih in dve vrsti algoritmov znanosti o podatkih. Obiščite lahko tudi naše članke, če želite izvedeti več -