Regresija proti klasifikaciji - Najpomembnejše razlike in primerjava

Razlika med regresijo in klasifikacijo

V tem članku Regression vs Classification razpravimo o ključnih razlikah med regresijo in klasifikacijo. Strojno učenje je na splošno razdeljeno na dve vrsti, to sta Nadzorovano strojno učenje in Nenadzorovano strojno učenje. Pri nadzorovanem strojnem učenju imamo v naboru podatkov znano izhodno vrednost in na podlagi njih treniramo model in ga uporabljamo za napovedovanje, medtem ko pri nenadzorovanem strojnem učenju nimamo znanega niza izhodnih vrednosti. Vnaprej, da ločimo med klasifikacijo in regresijo, razumemo, kaj ta terminologija pomeni v strojnem učenju. Regresija je algoritem v nadzorovanem strojnem učenju, ki se lahko usposobi za napovedovanje dejanskih številnih izhodov. Razvrstitev je algoritem v nadzorovanem strojnem učenju, ki je usposobljen za prepoznavanje kategorij in napovedovanje, v katero kategorijo sodijo nove vrednosti.

Primerjava med regresijo in klasifikacijo (Infographics)

Spodaj je top 5 primerjava med regresijo in klasifikacijo :

Ključne razlike med regresijo in klasifikacijo

Pogovorimo se o nekaterih ključnih razlikah med regresijo in klasifikacijo v naslednjih točkah:

Razvrščanje je namenjeno napovedovanju oznake ali kategorije. Razvrstitveni algoritem razvrsti zahtevani nabor podatkov v eno od dveh ali več oznak, algoritem, ki obravnava dva razreda ali kategorije, je znan kot binarni klasifikator in če obstaja več kot dva razreda, ga lahko imenujemo kot večvrstni algoritem klasifikacije.
Regresija je namenjena iskanju optimalne funkcije za prepoznavanje podatkov neprekinjenih realnih vrednosti in predvidevanje te količine. Regresija z več spremenljivkami kot vhodi ali funkcijami za treniranje algoritma je znana kot problem multivariatne regresije. Če je v regresijski težavi vhodne vrednosti odvisne ali urejene po času, je to znano kot problem napovedovanja časovnih vrst.
Vendar pa bo klasifikacijski model napovedoval tudi stalno vrednost, ki je verjetnost, da se zgodi dogodek, ki pripada temu izhodnemu razredu. Tu verjetnost dogodka predstavlja podobnost določenega primera, ki pripada določenemu razredu. Predvidena vrednost verjetnosti se lahko pretvori v vrednost razreda z izbiro oznake razreda, ki ima največjo verjetnost.
Dovolite nam, da to bolje razumemo, če vidimo primer, predpostavimo, da treniramo model za napovedovanje, ali ima človek raka ali ne na podlagi nekaterih značilnosti. Če dobimo verjetnost, da bo imel človek rak kot 0, 8 in rak ne kot 0, 2, lahko 0, 8 verjetnost pretvorimo v oznako razreda z rakom, saj ima največjo verjetnost.
Kot smo že omenili v klasifikaciji, da vidimo, kako uspešen je model klasifikacije, izračunamo natančnost. Poglejmo, kako se izračuna, lahko natančnost klasifikacije opravimo tako, da razmerje pravilnih napovedi in skupnih napovedi pomnožimo s 100. Če je narejenih 50 napovedi in 10 pravilnih, 40 pa napačnih, bo natančnost 20 %.

Natančnost = (Število pravilnih napovedi / Skupno število napovedi) * (100)

Natančnost = (10/50) * (100)
Natančnost = 20%

Kot je bilo omenjeno zgoraj v regresiji, je treba izračunati, kako dober je regresijski model najbolj priljubljen način za izračun korenske srednje kvadratne napake (RMSE). Poglejmo, kako bo izveden izračun.

Predvidena vrednost regresijskega modela je 4, 9, dejanska vrednost pa je 5, 3.

Predvidena vrednost regresijskega modela je 2, 3, medtem ko je dejanska vrednost 2, 1.

Predvidena vrednost regresijskega modela je 3, 4, medtem ko je dejanska vrednost 2, 9.

Zdaj Root pomeni kvadratno napako izračunati po formuli.

Napaka na kvadrat je (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25

Srednja vrednost napake na kvadrat = 0, 45 / 3 = 0, 15

Korenska povprečna kvadratna napaka = kvadratni koren 0, 15 = 0, 38

To je RMSE = 0, 38. Obstaja veliko drugih metod za izračun učinkovitosti modela, vendar se RMSE najbolj uporablja, ker RMSE ponuja oceno napake v istih enotah kot predvidena vrednost.

Primeri:

Večina inženirjev podatkovnih znanstvenikov je težko izbrati med regresijo in klasifikacijo v začetni fazi svoje poklicne poti. Da bi olajšali, poglejmo, kako izgledajo težave s klasifikacijo in kako izgledajo regresijske težave,

Razvrstitev

Napovedovanje, ali bo jutri deževalo ali ne.
Napovedovanje, da mora oseba kupiti to dobro ali ne, da bi prinašala dobiček.
Napovedovanje, ali ima oseba bolezen ali ne.

Če opazite za vsako situacijo tukaj, je lahko vrednost Da ali Ne kot izhodna predvidena vrednost.

Regresija

Napovedovanje cene zemljišča.
Napovedovanje cene zalog.

Če za vsako situacijo opazite tukaj, ima večina izmed njih numerično vrednost kot predvideni izhod.

Primerjalna tabela regresije proti klasifikaciji

Spodnja tabela povzema primerjave med regresijo in klasifikacijo :

Parameter	Regresija	Razvrstitev
Vrsta funkcije preslikave	V teh algoritmih bo funkcija preslikave izbrana vrste, ki lahko vrednosti uskladi s kontinuiranim izhodom.	V teh algoritmih bo funkcija preslikave izbrana vrste, ki lahko vrednosti poravna vnaprej določene razrede.
Vključuje napoved	Pri tej vrsti algoritmov predvideni podatki spadajo v kategorijo neprekinjenih vrednosti. (Kot 23, 34, 45, 67, 28)	Predvideni podatki za to vrsto algoritma spadajo v kategorijo diskretnih vrednosti. (Kot Da ali Ne, spada v A ali B ali C).
Metoda izračuna	Root Srednja kvadratna napaka se izračuna, da se ugotovi, da se najbolje prilega naboru podatkov.	Natančnost bo izračunana tako, da se ugotovi, da je nabor podatkov najbolj primeren.
Narava napovedanih podatkov	Narava predvidenih podatkov je urejena. (To pomeni, da bodo napovedane vrednosti v nekem zaporedju).	Narava predvidenih podatkov ni urejena. (To pomeni, da predvidene vrednosti ne bodo v nobenem zaporedju).
Algoritmi	Podpira Vektorsko regresijo in regresijska drevesa so znani tudi kot Naključni gozd, ki so nekateri priljubljeni primeri algoritmov regresije.	Naivni Bayes, odločitvena drevesa in K Najbližji sosedje so nekateri priljubljeni primeri algoritmov za razvrščanje.

Zaključek

To je nekaj ključnih razlik med razvrstitvijo in regresijo. V nekaterih primerih se lahko kontinuirane izhodne vrednosti, napovedane v regresiji, združijo v oznake in spremenijo v klasifikacijske modele. Torej moramo jasno razumeti, katero izbrati glede na situacijo in kakšen želimo, da bo predviden rezultat.

Priporočeni članki

To je vodnik za največjo razliko med regresijo in razvrstitvijo. Tukaj razpravljamo tudi o ključnih razlikah med regresijo in klasifikacijo z infografiko in primerjalno tabelo. Za več informacij si lahko ogledate tudi naslednje članke -