Enosmerna analiza variacije

Analiza variance, ki je na kratko napisana kot ANOVA, je postopek, s katerim lahko primerjamo sredstva za tri ali več populacij. Statistično gledano postavljamo dve hipotezi, nično hipotezo: "Vsa sredstva prebivalstva so enaka" in alternativno hipotezo: "Niso vsa populacijska sredstva enaka". Omogoča nam, da v enem testu preizkusimo enakost več sredstev, ne pa da primerjamo dva sredstva hkrati, kar je neizvedljivo, če obstaja več skupin. V tej temi bomo spoznali enosmerno ANOVA v R.

Enosmerna analiza variacije nam pomaga pri analizi le enega dejavnika ali spremenljivke. Npr. Obstaja pet regij in želimo preveriti, ali so dnevne povprečne padavine za vseh pet regij enake ali so različne. V tem primeru je le en dejavnik, ki je regija, saj moramo preveriti, ali regionalni dejavniki vplivajo na sprejem padavin in na vzorec.

Predpostavke analize variacije

Spodaj so predpostavke, ki jih je treba izpolniti za uporabo enosmerne ANOVA:

  • Populacije, iz katerih so bili odvzeti vzorci, se običajno porazdelijo.
  • Populacije, iz katerih so bili odvzeti vzorci, imajo enako odstopanje ali standardni odklon.
  • Vzorci iz različnih populacij so naključni in neodvisni.

Kako deluje enosmerna ANOVA v R?

Za predstavitev uporabljamo podatke, ki vsebujejo dve spremenljivki. Blagovna znamka in prodaja. Obstajajo štiri blagovne znamke - ATB, JKV, MKL in PRQ. Navedene so mesečne prodaje za te blagovne znamke. Preveriti moramo, ali so povprečne prodaje pri štirih znamkah enake ali se med seboj razlikujejo. Za preverjanje tega bomo uporabili enosmerno ANOVA. Postopni postopek za izvajanje ANOVA je naslednji:

  1. Najprej uvozite podatke v R. Podatki so v obliki CSV. Torej, da ga uvozimo, bomo uporabili funkcijo read.csv ().

  1. Oglejte si prvih nekaj zapisov podatkov. To je pomembno za preverjanje, ali so bili podatki pravilno uvoženi v R. Podobno bomo nad podatki uporabili funkcijo povzetka (), da bomo dobili osnovne vpoglede v podatke.

  1. Vsakič, ko bomo uporabili spremenljivke, ki so prisotne v naboru podatkov, moramo izrecno navesti ime podatkovnega niza, kot sta brand_sales_data $ Brand ali brand_sales_data $ Sales. Da bi to premagali, bomo uporabili funkcijo pripenjanja. Funkcijo je treba uporabiti kot spodaj.

  1. Prodaja seštejemo po znamki z uporabo povprečnega ali standardnega odklona. Združevanje nam pomaga, da dobimo osnovno predstavo o podatkih.

Zgornji rezultat kaže, da sredstva za štiri različne skupine niso enaka. JKV ima najvišjo povprečno prodajo.

Kot je razvidno zgoraj, standardni odkloni v štirih skupinah ne kažejo bistvenih razlik in je najvišji pri znamki MKL.

  1. Zdaj bomo uporabili ANOVA za potrditev, če so sredstva v treh populacijah enaka ali obstaja kakšna razlika.

Iz zgornjih rezultatov lahko razberemo, da je test ANOVA za blagovno znamko pomemben zaradi p <0.0001. Lahko razlagamo, da vse blagovne znamke nimajo enakih ravni preferenc na trgu, kar vpliva na prodajo teh blagovnih znamk na trgu. To je lahko posledica številnih dejavnikov in všečnosti ljudi za določeno blagovno znamko.

  1. Zgornji rezultat je mogoče prikazati in interpretacijo olajša. Za to bomo uporabili funkcijo plotmeans () v knjižnici gplots (). Deluje kot spodaj:

Kot lahko vidimo zgoraj, nam funkcija plotmeans () v paketu gplots omogoča vizualno primerjavo sredstev različnih skupin. Vidimo, da sredstva pri štirih znamkah niso enaka. Vendar sredstva za blagovne znamke MKL in PRQ spadajo v tesne roke.

  1. Zgornja analiza nam pomaga, da preverimo, ali imajo blagovne znamke enaka sredstva ali ne, vendar je težko primerjati parno primerjavo. Primerjave različnih blagovnih znamk lahko izvedemo s pomočjo funkcije TukeyHSD (), ki olajša preverjanje, ali se znamka bistveno razlikuje od katere koli od preostalih.

Primerjane dvojice kot zgoraj. Razlika med katero koli dve skupini je pomembna, če je p <0, 001. Kot lahko vidimo zgoraj, je p-vrednost za par PRQ-MKL veliko višja, kar pomeni, da se obe znamki med seboj ne razlikujeta bistveno.

Za vizualizacijo dvojnih primerjav bomo zgornje rezultate gradili kot spodaj:

Prva funkcija par zasuka nalepke osi, zaradi česar so vodoravne, druga stavka par pa prilagodi robove tako, da se nalepke pravilno prilegajo, sicer bodo šle zunaj zaslona.

Zgornji graf nudi dober vpogled, vendar lahko rezultate narišemo v obliki boxplota, da dobimo boljši vpogled za jasnejšo interpretacijo, kot je prikazano spodaj.

Zgoraj uporabljena funkcija glht () vsebuje obsežen nabor metod za primerjavo več načinov. Opomba, možnost ravni v funkciji cld () se nanaša na raven pomembnosti, npr. 0, 05 ali 95-odstotno zaupanje)

Z uporabo zgornjega zapleta je enostavno primerjati sredstva po skupinah in omogoča tudi sistematično razlago. Za vsako znamko se na vrhu ploskve nahajajo črke. Če imata dve znamki isto črko, potem nimata bistveno drugačnih sredstev kot blagovne znamke MKL in PRQ, ki imata isto črko b.

  1. Do sedaj smo implementirali ANOVA in uporabili ploskve za vizualizacijo rezultatov. Vendar je enako pomembno preizkusiti predpostavke. Najprej bomo potrdili predpostavko o normalnosti.

Avtomobilski paket v R ponuja funkcijo qqPlot (). Zgornja ploskev kaže, da podatki spadajo med 95-odstotni obseg zaupanja. To kaže, da je predpostavka o normalnosti že skoraj izpolnjena.

Nato bomo potrdili, če so razlike v znamkah enake. Za to bomo uporabili Bartlettov test

P-vrednost kaže, da se odstopanja v skupini ne razlikujejo bistveno

Nenazadnje bomo preverili, ali obstajajo kakšni odbitki, ki vplivajo na rezultate ANOVA.

Iz zgornjega rezultata lahko razberemo, da v podatkih ni nobenega znaka odstranjevalcev (NA se pojavi, ko p> 1)

Upoštevajoč rezultate QQ Plot, Bartlettov test in Outlierjev test, lahko rečemo, da podatki izpolnjujejo vse predpostavke ANOVA in dobljeni rezultati so veljavni.

Zaključek - Enosmerna ANOVA v R

ANOVA je zelo priročna statistična tehnika, ki jo je mogoče uporabiti za primerjavo sredstev za več populacij. R ponuja obsežno paleto paketov za uvajanje ANOVA, pridobivanje rezultatov in potrjevanje predpostavk. V R statistične rezultate lahko razlagamo v vizualnih oblikah, ki ponujajo globlje vpoglede.

Priporočeni članki

To je vodnik za eno smer ANOVA v R. Tukaj razpravljamo o tem, kako deluje enosmerna ANOVA in predpostavkah analize variacije. Za več informacij si lahko ogledate tudi naslednje članke -

  1. R Programski jezik
  2. Regresija proti ANOVA
  3. Kako razlagati rezultate s testom ANOVA
  4. GLM v R

Kategorija: