Jednosmjerna analiza varijance

Analiza varijance napisana kratko kao ANOVA je postupak pomoću kojeg možemo usporediti sredstva za tri ili više populacija. Statistički gledano, uokvirujemo dvije hipoteze, nultu hipotezu: „Sva sredstva stanovništva jednaka su“ i alternativna hipoteza: „Nisu sva sredstva stanovništva jednaka“. Omogućuje nam testiranje jednakosti višestrukih sredstava u jednom testu, a ne uspoređivanje dva načina odjednom što je neizvedivo kad postoji nekoliko skupina. U ovoj ćemo temi saznati o ANOVA s jednim smjerom u R.

Jednosmjerna analiza varijance pomaže nam u analiziranju samo jednog faktora ili varijable. Na primjer, postoji pet regija i želimo provjeriti jesu li dnevne prosječne kiše za svih pet regija jednake ili su različite. U ovom slučaju, postoji samo jedan faktor, a to je regija, jer trebamo provjeriti utječu li regionalni čimbenici na prijam oborina i obrazac.

Pretpostavke analize varijance

Slijede pretpostavke koje moraju biti ispunjene za primjenu jednosmjerne ANOVA:

  • Populacije iz kojih se uzimaju uzorci obično se raspodjeljuju.
  • Populacije iz kojih se uzimaju uzorci imaju istu varijancu ili standardno odstupanje.
  • Uzorci prikupljeni iz različitih populacija slučajni su i neovisni.

Kako djeluje jednosmjerna ANOVA u R?

Za našu demonstraciju koristimo podatke koji sadrže dvije varijable tj. Marka i prodaja. Postoje četiri marke - ATB, JKV, MKL i PRQ. Mjesečne prodaje za ove marke su date. Moramo provjeriti jesu li prosječne prodaje kod četiri marke jednake ili se razlikuju jedna od druge. Da bismo to potvrdili, upotrijebit ćemo Jednosmjernu ANOVA. Korak-po-korak postupak primjene ANOVA-e je sljedeći:

  1. Prvo uvezite podatke u R. Podaci su prisutni u CSV formatu. Dakle, da bismo ga uvezli, upotrijebit ćemo funkciju read.csv ().

  1. Pogledajte prvih nekoliko zapisa podataka. Ovo je važno za provjeru jesu li podaci ispravno uveženi u R. Slično tome, primijenit ćemo funkciju sažetka () na podatke kako bismo dobili osnovne uvide u podatke.

  1. Svaki put kada koristimo varijable prisutne u skupu podataka, moramo izričito navesti ime skupa podataka poput brand_sales_data $ Brand ili brand_sales_data $ Sales. Da bismo to prevladali, upotrijebit ćemo funkciju privitka. Funkcija se mora primijeniti kao dolje.

  1. Spojimo prodaju po robnoj marki koristeći srednju ili standardnu ​​devijaciju. Agregacija nam pomaže dobiti osnovnu predodžbu o podacima.

Gornji rezultat pokazuje da sredstva za četiri različite skupine nisu jednaka. JKV ima najveću srednju prodaju.

Kao što se može vidjeti gore, standardna odstupanja u četiri skupine ne pokazuju značajnu razliku i ona je najviša kod marke MKL.

  1. Sada ćemo primijeniti ANOVA za provjeru jesu li sredstva u tri populacije jednaka ili postoji razlika.

Iz gornjih rezultata možemo vidjeti da je test ANOVA za marke značajan zbog p <0.0001. Možemo protumačiti da sve marke nemaju iste razine preferencija na tržištu što utječe na prodaju tih marki na tržištu. To bi se moglo dogoditi zbog mnogih faktora i dopadljivosti ljudi za određenu marku.

  1. Gornji rezultat može se vizualizirati i olakšava interpretaciju. Za to ćemo upotrijebiti plotmeans () funkciju u biblioteci gplots (). Djeluje na sljedeći način:

Kao što vidimo gore, funkcija plotmeans () u gplots paketu omogućava nam vizualno uspoređivanje sredstava različitih skupina. Vidimo da sredstva nisu ista kod četiri marke. Međutim, sredstva za marke MKL i PRQ spadaju izbliza.

  1. Gornja analiza pomaže nam da provjerimo imaju li marke jednaka sredstva ili ne, međutim, otežavanje usporedbe s parom teško je s njim. Možemo napraviti usporedbe u paru za različite marke koristeći TukeyHSD () funkciju koja olakšava provjeru je li marka značajno drugačija od bilo koje od preostalih.

Usporedbe u paru kao gore. Razlika između bilo koje dvije skupine je značajna ako je p <0, 001. Kao što vidimo gore, p-vrijednost za par PRQ-MKL mnogo je veća što ukazuje da se dvije marke ne razlikuju značajno jedna od druge.

Da bismo vizualizirali parne usporedbe, gornje rezultate crtamo na sljedeći način:

Prva parna funkcija zakreće naljepnice osi čineći ih horizontalnim, a druga naredba par prilagođava rubove tako da se naljepnice pravilno uklapaju, u suprotnom će izaći iz zaslona.

Gornji graf nudi dobar uvid, ali rezultate možemo oblikovati u obliku boxplota kako bismo dobili bolji uvid za jasniju interpretaciju kao što je prikazano u nastavku.

Gore upotrijebljena funkcija glht () dolazi s opsežnim setom metoda za usporedbu višestrukih sredstava. Napomena, mogućnost razine u funkciji cld () odnosi se na razinu značajnosti, npr. Pouzdanost 0, 05 ili 95 posto)

Korištenjem gornjeg zapleta postaje lako usporediti sredstva po skupinama, a također olakšava sustavno tumačenje. Za svaku marku postoje pisma, na vrhu parcele. Ako dvije marke imaju isto slovo, onda nemaju značajno različita sredstva kao marke MKL i PRQ u ovom slučaju koje imaju isto slovo b.

  1. Do sada smo implementirali ANOVA i koristili grafičke prikaze za vizualizaciju rezultata. Međutim, jednako je važno testirati pretpostavke. Prvo ćemo potvrditi pretpostavku normalnosti.

Automobilski paket u R-u pruža funkciju qqPlot (). Gornja parcela pokazuje da podaci potpadaju u opseg 95% povjerenja. To ukazuje da je pretpostavka normalnosti gotovo ispunjena.

Zatim ćemo potvrditi jesu li varijance među robnim markama jednake. Za to ćemo koristiti Bartlettov test

P-vrijednost pokazuje kako varijacije u grupi ne razlikuju se značajno

Posljednje, ali ne najmanje bitno, provjerit ćemo postoje li odmetnici koji utječu na ANOVA rezultate.

Iz gornjeg rezultata vidimo da u podacima nema naznaka da se odmetnici (NA pojavljuje kada p> 1)

Uzimajući u obzir rezultate QQ plota, Bartlett-ovog testa i Outlier testa, možemo reći da podaci zadovoljavaju sve pretpostavke ANOVA-e, a dobiveni rezultati su valjani.

Zaključak - Jedan smjer ANOVA u R

ANOVA je vrlo zgodna statistička tehnika koja se može koristiti za usporedbu sredstava u više populacija. R nudi sveobuhvatan asortiman paketa za provedbu ANOVA, dobivanje rezultata i potvrđivanje pretpostavki. U R, statistički se rezultati mogu interpretirati u vizualnim oblicima koji nude dublje uvide.

Preporučeni članci

Ovo je vodič za ANOVA s jednim smjerom u R. Ovdje smo raspravljali o načinu funkcioniranja jednosmjerne ANOVA i pretpostavkama analize varijance. Možete također pogledati sljedeće članke da biste saznali više -

  1. R Programski jezik
  2. Regresija vs ANOVA
  3. Kako protumačiti rezultate pomoću ANOVA testa
  4. GLM u R

Kategorija: