Uvod v klasifikacijske algoritme

Ta članek o klasifikacijskih algoritmih daje pregled različnih metod razvrščanja, ki se običajno uporabljajo v tehniki rudarjenja podatkov z različnimi načeli. Razvrščanje je tehnika, ki podatke razvrsti v ločeno število razredov, za vsak razred pa se dodelijo oznake. Glavni cilj razvrstitve je določiti razred za začetek novih podatkov z analizo nabora usposabljanja z vidom ustreznih meja. Na splošno napovedovanje ciljnega razreda in zgornji postopek imenujemo klasifikacija.

Na primer, vodstvo bolnišnice zapiše bolnikovo ime, naslov, starost, prejšnjo anamnezo bolnikovega zdravja, da jih diagnosticira, to pomaga razvrstiti bolnike. Lahko jih razvrstimo v dve fazi: faza učenja in faza ocenjevanja. Modeli učne faze osnova pristopa ne vključuje podatkov o usposabljanju, medtem ko faza ocenjevanja napoveduje rezultate za dane podatke. Njihove aplikacije lahko najdemo v elektronski pošti, napovedovanju bančnih posojil, prepoznavanju govora, analizi občutkov. Tehnika vključuje matematično funkcijo f z vhodom X in izhodom Y.

Pojasnite podrobne algoritme za razvrstitev

Klasifikacija se lahko izvede na strukturiranih in nestrukturiranih podatkih. Razvrstitev lahko uvrstimo v kategorijo

  1. Naive Bayesov klasifikator
  2. Drevesa odločanja
  3. Podporni vektorski stroj
  4. Naključni gozd
  5. K- najbližji sosedje

1) Naive Bayesov klasifikator

Gre za Bayesov algoritem, ki temelji na izrekanju, ena od statističnih klasifikacij in za oceno parametrov, imenovanih tudi verjetnostni klasifikatorji, je potrebnih nekaj količin podatkov o usposabljanju. Velja za najhitrejšega klasifikatorja, zelo razširljivega in obdeluje tako diskretne kot neprekinjene podatke. Ta algoritem se uporablja za predvidevanje v realnem času. Obstajajo različne vrste naivnega klasifikatorja, Multinomial Naive Bayes, Bernoulli Naive Bayes, Gaussov naivec.

Bayesovo klasifikacijo s posteriornimi verjetnostmi podaja

Kjer so A, B dogodki, P (A | B) - posteriorne verjetnosti.

Če sta dve vrednosti med seboj neodvisni,

P (A, B) = P (A) P (B)

Naive Bayes lahko zgradite s pomočjo knjižnice python. Napovedniki Naive so neodvisni, čeprav se uporabljajo v sistemih priporočil. Uporabljajo se v številnih aplikacijah v realnem času in jih zavestno uporabljajo pri razvrščanju dokumentov.

Prednosti:

Prednosti so, da zahtevajo zelo manj računalniške moči, za katero se predvideva, da je težava napovedovanja več razredov, natančno delujejo na velikih zbirkah podatkov.

Slabost:

Glavna pomanjkljivost tega klasifikatorja je, da bodo dodelili ničelno verjetnost. Imajo lastnosti, ki so med seboj neodvisne.

2) Drevo odločitve

Gre za model pristopa od zgoraj navzdol, saj struktura diagrama poteka z visoko dimenzionalnimi podatki. Rezultati se predvidijo na podlagi dane vhodne spremenljivke. Drevo odločitve, sestavljeno iz naslednjih elementov: koren, veliko vozlišč, vej, listov. Koreninsko vozlišče naredi particijo na podlagi vrednosti atributa razreda, notranje vozlišče sprejme atribut za nadaljnjo razvrstitev, veje sprejmejo odločitveno pravilo, da bodo vozlišča razdelile na listna vozlišča, nazadnje nam listna vozlišča dajo končni rezultat. Časovna zapletenost odločitvenega drevesa je odvisna od števila zapisov, atributov podatkov o usposabljanju. Če je odločitveno drevo predolgo, je težko dobiti želene rezultate.

Prednost: Uporabljajo se za prediktivno analitiko za reševanje težav in se vsakodnevno uporabljajo za vsakodnevne dejavnosti, da izberejo cilj na podlagi analize odločitev. Samodejno zgradi model na podlagi izvornih podatkov. Najboljše pri ravnanju z manjkajočimi vrednostmi.

Pomanjkljivost: Velikost drevesa je neobvladljiva, dokler nima nekaterih meril za ustavljanje. Zaradi svoje hierarhične strukture je drevo nestabilno.

3) Podporni vektorski stroj

Ta algoritem ima ključno vlogo pri težavah s klasifikacijo in najpogosteje algoritme za strojno učenje pod nadzorom. To je pomembno orodje, ki ga uporablja raziskovalec in podatkovni znanstvenik. Ta SVM je zelo enostaven in njegov postopek je iskanje hiperplana v točkah N-dimenzijskih podatkov. Hiperplane so meje odločitve, ki razvrščajo podatkovne točke. Ves ta vektor pade bližje hiperplanu, maksimizira maržo klasifikatorja. Če je meja največja, je najnižja napaka posploševanja. Njihova implementacija se lahko izvede z jedrom s pomočjo pythona z nekaj nabori podatkov o usposabljanju. Glavni cilj SVM je izuriti predmet v določeno klasifikacijo. SVM ni omejen na linearni klasifikator. SVM je zaradi svoje funkcije jedra bolj prednost kot kateri koli klasifikacijski model, ki izboljšuje računalniško učinkovitost.

Prednost: Zaradi manjše računalniške moči in učinkovite natančnosti so zelo prednostni. Učinkovit v velikem dimenzionalnem prostoru, dobra učinkovitost pomnilnika.

Pomanjkljivost: Omejitve hitrosti, jedra in velikosti

4) Naključni gozd

To je močan algoritem strojnega učenja, ki temelji na pristopu učenja Ensemble. Osnovni gradnik naključnega gozda je drevo odločitev, ki se uporablja za izdelavo prediktivnih modelov. Predstavitev dela vključuje ustvarjanje gozda dreves z naključnimi odločitvami, obrezovanje pa izvajamo tako, da določimo zaustavitvene cepitve, da dobimo boljši rezultat. Naključni gozd se izvaja s tehniko, imenovano vreča za sprejemanje odločitev. To pakiranje preprečuje prekomerno prilagajanje podatkov z zmanjšanjem pristranskosti, podobno kot to naključno lahko dosežemo boljšo natančnost. Končno napoved sprejme povprečje številnih dreves odločitev, tj pogoste napovedi. Naključni gozd vključuje številne primere uporabe, kot so napovedi borz, odkrivanje goljufij, napovedi novic.

Prednosti:

  • Za obdelavo podatkovnih nizov ni potrebna velika obdelava in zelo enostavno oblikovanje modela. Zagotavlja večjo natančnost pomaga pri reševanju težav s predvidevanjem.
  • Dobro deluje pri obdelavi manjkajočih vrednosti in samodejno zazna zunaj.

Slabost:

  • Zahteva visoke računske stroške in veliko pomnilnika.
  • Zahteva veliko več časovnega obdobja.

5) K- najbližji sosedje

Tu bomo razpravljali o algoritmu K-NN z nadzorovanim učenjem za CART. Uporabljajo K pozitivno majhno celo število; predmetu je dodeljen razred na podlagi sosedov ali pa bomo rekli dodeljevanje skupini z opazovanjem, v kateri skupini leži sosed. To je izbrano z evklidsko razdaljo in veliko silo. Vrednost K je mogoče najti s postopkom uglasitve. KNN se ne želi naučiti nobenega modela za usposabljanje novega nabora podatkov in uporabo normalizacije za spreminjanje velikosti podatkov.

Prednost: Učinkovite rezultate, če je podatkov o vadbi ogromno.

Pomanjkljivost: Največja težava je, da če je spremenljivka majhna, deluje dobro. Drugič, izbira faktorja K ob razvrščanju.

Zaključek

Za zaključek smo preučili zmogljivosti različnih klasifikacijskih algoritmov, ki še vedno delujejo kot močno orodje v inženiringu funkcij, klasifikacija slik, ki ima velik vir za strojno učenje. Razvrstitveni algoritmi so močni algoritmi, ki rešujejo težke težave.

Priporočeni članki

To je vodnik za klasifikacijske algoritme v strojnem učenju. Tu razpravljamo, da se lahko klasifikacija izvede tako na strukturiranih kot na nestrukturiranih podatkih. Ogledate si lahko tudi druge naše predlagane članke -

  1. Algoritmi poti
  2. Algoritem grozda
  3. Postopek rudarjenja podatkov
  4. Algoritmi strojnega učenja
  5. Najpogosteje uporabljene tehnike ansambelskega učenja
  6. C ++ algoritem | Primeri algoritma C ++

Kategorija: