Kaj je regresijska analiza? - Vrste in prednosti regresijske analize

Kazalo:

Anonim

Uvod v regresijsko analizo

Regresijska analiza je algoritem napovedovalnega modeliranja, ki napoveduje izid spremenljivke in identificira spremenljivke (neodvisne spremenljivke), ki prispevajo k spremenljivki izida ali so odvisne od njega (ciljna ali odvisna spremenljivka). Preprosto povedano, to je tehnika, kako najti razmerje med neodvisnimi in odvisnimi spremenljivkami za ustvarjanje rezultata. Rezultat je preprost za uporabo in razlago. Obstaja veliko vrst regresijskih tehnik, ki se pogosto uporabljajo v različnih sektorjih. Nekateri primeri regresije so napovedovanje plače zaposlenega ali dohodka podjetja v enem letu.

Kako je delovala regresijska analiza?

Obstaja veliko vrst regresijskih tehnik, ki se uporabljajo ob upoštevanju različnih dejavnikov in rezultatov.

  • Linearna regresija
  • Logistična regresija
  • Regresija Lasso / Ridge
  • Polinomna regresija

V nadaljevanju so navedeni nekateri pomembni statistični regresijski testi, ki se uporabljajo v različnih sektorjih:

1. Linearna regresija

Uporablja se, kadar je izhodna spremenljivka linearno odvisna od neodvisnih spremenljivk. Običajno se uporablja, kadar nimamo ogromnega nabora podatkov. Občutljiv je tudi za odpuščene osebe, zato če nabor podatkov vsebuje odpuščaje, je bolje, da jih pred uporabo linearne regresije obravnavamo. Obstajajo enotne in več spremenljive regresijske tehnike. Enostavna linearna regresija je analiza, ko je izhodna spremenljivka linearno odvisna od ene neodvisne spremenljivke. Preprosta linearna regresija sledi enačbi premice, ki je podana spodaj:

Y=mx+c

Kje,

Y = Ciljna, odvisna ali merila spremenljivke

x = Neodvisna ali napovedniška spremenljivka

m = koeficient naklona ali regresije

c = konstanta

Multi-spremenljiva linearna regresija določa odnos med izhodno spremenljivko in več kot eno neodvisno spremenljivko. Sledi spodnja enačba ravne črte, kjer so odvisne spremenljivke linearna kombinacija vseh neodvisnih spremenljivk:

Y= m1x1+m2x2+m3x3+…mnan+c

Kje,

Y = Ciljna, odvisna ali merila spremenljivke

x1, x2, x3… xn = Neodvisne ali napovedniške spremenljivke

m1, m2, m3… mn = Koeficienti naklona ali regresije ustreznih spremenljivk

c = konstanta

Linearna regresija sledi načelu metode Least Square. Ta metoda navaja, da je izbrana vrstica, ki je najbolj primerna, s čim manjšo vsoto kvadratne napake. Črta najustreznejše se izbere tam, kjer je vsota kvadratne napake med opazovanimi podatki in premico minimalna.

Obstaja nekaj predpostavk, na katere je treba biti pozoren pred uporabo linearne regresije na naboru podatkov.

  • Med neodvisnimi in odvisnimi spremenljivkami mora obstajati linearna povezava.
  • Med neodvisnimi spremenljivkami ne sme biti malo ali malo večkolinearnosti. Večkolinearnost je opredeljena kot pojav, pri katerem obstaja visoka povezanost med neodvisnimi spremenljivkami. Večkolinearnost lahko obravnavamo tako, da spustimo eno spremenljivko, ki je korelirana, ali dve spremenljivki obravnava kot eno spremenljivko.
  • Homoscedastičnost: Opredeljena je kot stanje, v katerem je treba v regresijski analizi naključno razporediti izraze napak. Če obstaja nekakšen identificiran vzorec čez črto, ne sme biti nobenega vzorca, kot naj bi bili podatki heteroscedastični.
  • Vse spremenljivke bi morale biti normalno porazdeljene, kar vidimo s črtanjem QQ ploskve. Če se podatki običajno ne distribuirajo, lahko za zdravljenje uporabimo katere koli nelinearne metode preoblikovanja.

Torej je vedno priporočljivo preizkusiti predpostavke ob uporabi linearne regresije za doseganje dobre natančnosti in pravilnega rezultata.

2. Logistična regresija

Ta regresijska tehnika se uporablja, kadar je ciljna ali izhodna spremenljivka kategorične ali binarne narave. Glavna razlika med linearno in logistično regresijo je v ciljni spremenljivki, v linearni regresiji pa mora biti neprekinjena, v logistični pa mora biti kategorična. Izhodna spremenljivka mora imeti le dva razreda, ne več kot to. Nekateri primeri so filtri za neželeno pošto v e-poštnih sporočilih (Neželena pošta ali ne), odkrivanje prevare (Fraud / Not Fraud) itd. Deluje na principu verjetnosti. Lahko ga razvrstimo v dve kategoriji z nastavitvijo vrednosti praga.

Na primer: Če obstajata dve kategoriji A, B in določimo vrednost praga kot 0, 5, bo verjetnost nad 0, 5 veljala za eno kategorijo, pod 0, 5 pa za drugo kategorijo. Logistična regresija sledi krivulji v obliki črke S. Preden zgradimo model logistične regresije, moramo razdeliti nabor podatkov na usposabljanje in testiranje. Ker je ciljna spremenljivka kategorična ali binarna, moramo poskrbeti, da je na vadbeni sestavi pravilno uravnoteženo. Če obstaja neravnovesje v razredu, je to mogoče odpraviti z različnimi metodami, kot je navedeno spodaj:

  • Up vzorčenje: Pri tej tehniki se razred, ki ima manj vrstic, vzorči, da se ujema s številom vrstic večinskega razreda.
  • Vzorčenje navzdol: Pri tej tehniki se razred, ki ima več vrstic, vzorči navzdol, da se ujema s številom vrstic manjšinskega razreda.

Pred uporabo logističnega regresijskega modela na nabore podatkov je treba razumeti nekaj pomembnih točk:

  • Ciljna spremenljivka mora biti binarne narave. Če je v ciljni spremenljivki več kot 2 razreda, je znana kot Multinomial Logistic Regression .
  • Med neodvisnimi spremenljivkami ne sme biti malo ali malo večkolinearnosti.
  • Za delo potrebuje ogromno velikost vzorca.
  • Med neodvisnimi spremenljivkami in dnevnikom kvot mora obstajati linearno razmerje.

Prednosti regresije

Prednosti regresijske analize so številne. Namesto da bi razmislili o svojem občutku črevesja in napovedali rezultat, lahko uporabimo regresijsko analizo in pokažemo veljavne točke za možne izide.

Nekateri od teh so navedeni spodaj:

  • Predvideti prodajo in prihodek v katerem koli sektorju za krajša ali daljša obdobja.
  • Predvideti stopnjo zmanjšanja odjemalcev v kateri koli panogi in ugotoviti ustrezne ukrepe za njihovo zmanjšanje.
  • Za razumevanje in napovedovanje ravni zalog skladišča.
  • Ugotoviti, ali bo uvedba novega izdelka na trg uspešna ali ne.
  • Da bi napovedali, ali bo katera koli stranka neplačala posojila ali ne.
  • Predvideti, ali bo kdo kupil izdelek ali ne.
  • Odkrivanje prevare ali neželene pošte

Zaključek

Obstajajo različne meritve vrednotenja, ki so upoštevane po uporabi modela. Čeprav obstajajo predpostavke, ki jih je treba preizkusiti pred uporabo modela, lahko spremenljivke vedno spremenimo z različnimi matematičnimi metodami in povečamo zmogljivost modela.

Priporočeni članki

To je vodnik za regresijsko analizo. Tukaj razpravljamo o uvodu v regresijsko analizo, kako je delovala regresijska analiza in kakšne so prednosti regresije. Obiščite lahko tudi druge naše predlagane članke, če želite izvedeti več -

  1. Linearna regresijska analiza
  2. Orodja za analizo podatkov
  3. Orodja za testiranje regresije
  4. Analiza velikih podatkov
  5. Regresija proti klasifikaciji | Najpomembnejše razlike