Uvod u ANOVA u R

Sljedeći članak ANOVA in R daje pregled usporedbe srednje vrijednosti različitih skupina. Analiza varijance (ANOVA) vrlo je uobičajena tehnika koja se koristi za usporedbu srednje vrijednosti različitih skupina. ANOVA model koristi se za testiranje hipoteza, gdje se određena pretpostavka ili parametar generira za populaciju, a statistička metoda koristi se za utvrđivanje je li hipoteza istinita ili netočna.

Hipoteza proizlazi iz pretpostavke istražitelja i dostupnih informacija o populaciji. ANOVA se naziva analiza varijance i koristi se za testiranje hipoteza gdje se zahtijeva mjerenje vrijednosti varijable u više neovisnih skupina.

Na primjer, u laboratoriju za istraživanje ili izum novih lijekova za pretilost, istraživači će usporediti rezultate eksperimentalnog i standardnog liječenja. U studiji pretilosti mogu se dobiti vrijedni rezultati kada se srednja stopa pretilosti populacije može usporediti u različitim dobnim skupinama. U ovom se slučaju želi primijetiti srednja stopa pretilosti među različitim dobnim skupinama, kao što su dob (5 do 18), (19, 35) i (36 do 50). ANOVA metoda se primjenjuje jer postoje više od dvije skupine koje su neovisne. ANOVA metoda koristi se za usporedbu srednje pretilosti neovisnih skupina. Koristi se funkcija aov (), a sintaksa je aov (formula, data = podatkovni okvir) U ovom ćemo članku naučiti o ANOVA modelu i dalje raspravljati o jednosmjernom i dvosmjernom ANOVA modelu zajedno s primjerima.

Zašto ANOVA?

  • Ova se tehnika koristi za odgovor na hipotezu dok se analizira više skupina podataka. Međutim, postoji više statističkih pristupa, no ANOVA u R primjenjuje se kad se uspoređivanje treba obaviti na više od dvije neovisne skupine, kao što smo u prethodnom primjeru imali tri različite dobne skupine.
  • ANOVA tehnika mjeri sredinu neovisnih skupina kako bi istraživačima pružio rezultat hipoteze. Da bi se dobili točni rezultati, u obzir se uzimaju sredstva uzorka, veličina uzorka i standardno odstupanje od svake pojedine skupine.
  • Za usporedbu je moguće pojedinačno promatrati prosjek za svaku od tri skupine. Međutim, ovaj pristup ima ograničenja i može se pokazati netočnim jer ove tri usporedbe ne uzimaju u obzir ukupne podatke i na taj način mogu dovesti do pogreške tipa 1. R nam pruža funkciju provođenja ANOVA analize radi ispitivanja varijabilnosti među neovisnim skupinama podataka. Postoji pet faza provođenja ANOVA analize. U prvoj se fazi podaci raspoređuju u formatu csv i stupac se generira za svaku varijablu. Jedan od stupaca bila bi ovisna varijabla, a preostali su neovisna varijabla. U drugoj se fazi podaci čitaju u R studiju i nazivaju na odgovarajući način. U trećoj fazi, skup podataka pridružen je pojedinačnim varijablama i čita ih memorija. Na kraju je definirana i analizirana ANOVA u R. U donjim dijelovima pružio sam nekoliko primjera iz primjera u kojima bi se trebale koristiti ANOVA tehnike.
  • Na 12 polja testirano je šest insekticida, a istraživači su prebrojili broj bugova koji su ostali na svakom polju. Sad poljoprivrednici moraju znati imaju li insekticidi bilo kakve razlike, i ako jesu, koji najbolji koriste. Na ovo pitanje odgovorite pomoću funkcije aov () za izvođenje ANOVA.
  • Pedeset pacijenata dobilo je jedan od pet lijekova za smanjenje kolesterola (trt). Tri stanja liječenja uključivala su isti lijek primjenjivan kao 20 mg jednom dnevno (1 put) 10 mg dva puta dnevno (2 puta) 5 mg četiri puta dnevno (4 puta). Dva preostala stanja (drugD i drugE) predstavljala su konkurentne lijekove. Koji je tretman lijekovima donio najveće smanjenje kolesterola (odgovor)?

ANOVA jednosmjerna

  • Jednosmjerna metoda jedna je od osnovnih ANOVA tehnika u kojoj se primjenjuje analiza varijance i uspoređuje srednja vrijednost više populacijskih skupina.
  • Jednosmjerna ANOVA dobila je ime zbog dostupnosti klasificiranih podataka na jedan način. U jednosmjernoj varijabli ANOVA mogu biti dostupne pojedinačne varijable i jedna ili više nezavisnih varijabli.
  • Na primjer, izvest ćemo tehniku ​​ANOVA na skupu podataka o kolesterolu. Skup podataka sastoji se od dvije varijable trt (koje su tretmani na 5 različitih razina) i varijable odgovora. Neovisna varijabla - skupine liječenja lijekovima, ovisna varijabla - znači 2 ili više skupina ANOVA. Iz ovih rezultata možete potvrditi da je uzimanje doza od 5 mg 4 puta dnevno bilo bolje nego uzimanje doze od dvadeset mg jednom dnevno. Lijek D ima bolje učinke u usporedbi s tim lijekom E

Lijek D daje bolje rezultate ako se uzima u dozi od 20 mg u usporedbi s lijekom E

Koristi skup podataka o kolesterolu u paketu s više računala
install.packages('multcomp')
library(multcomp)
str(cholesterol)
attach(cholesterol)
aov_model <- aov(response ~ trt)

ANOVA F test za liječenje (trt) je značajan (p <.0001), koji pruža dokaz da je pet tretmana
# nisu svi jednako učinkoviti.
Sažetak (aov_model)
Odvoji (kolesterol)

Funkcija plotmeans () u gplots paketu može se koristiti za izradu grafikona grupnih sredstava i njihovih intervala pouzdanosti To jasno pokazuje razlike u liječenju
install.packages('gplots')
library(gplots)
plotmeans(response ~ trt, xlab="Treatment", ylab="Response",
main="Mean Plot\nwith 95% CI")

Ispitajmo izlaz iz TukeyHSD () na parne razlike između središta grupe

TukeyHSD (aov_model)

Prosječne redukcije kolesterola 1 i 2 puta ne razlikuju se međusobno značajno (p = 0, 138), dok je razlika između 1 i 4 puta značajno različita (p <0, 001).
par (mar = c (5, 8, 4, 2)) # povećanje grafikona lijeve margine (TukeyHSD (aov_model), las = 2)

Povjerenje u rezultate ovisi o stupnju u kojem vaši podaci zadovoljavaju pretpostavke na kojima se temelje statistički testovi. U jednosmjernoj ANOVA pretpostavlja se da je ovisna varijabla normalno distribuirana i da ima jednaku varijancu u svakoj grupi. Možete koristiti QQ zaplet za procjenu knjižnice (automobila) pretpostavki normalnosti.
QQ zaplet (lm (odgovor ~ trt, podaci = kolesterol), simulira = TRUE, main = ”QQ Plot”, oznake = FALSE)

Točkasta linija = omotnica pouzdanosti od 95%, što sugerira da je pretpostavka normalnosti ispunjena prilično dobro. ANOVA pretpostavlja da su varijance jednake u skupinama ili uzorcima. Bartlettov test može se koristiti za provjeru te pretpostavke
bartlett.test (odgovor ~ trt, podaci = kolesterol). Bartlettov test pokazuje da se odstupanja u pet skupina ne razlikuju značajno (p = 0, 97).

ANOVA je također osjetljiv na test za odmaranje za autonimente pomoću funkcije outlierTest () u automobilskom paketu. Možda nećete trebati pokretanje ovog paketa za ažuriranje biblioteke automobila.
update.packages(checkBuilt = TRUE)
install.packages("car", dependencies = TRUE)
library(car)
outlierTest(aov_model)

Iz rezultata se vidi da u podacima o kolesterolu nema naznaka o potrošnji (NA pojavljuje se kada p> 1). Uzimajući QQ plan, Bartlettov test i vanjski test zajedno, izgleda da se podaci prilično podudaraju s ANOVA modelom.

Dvosmjerna Anova

Još jedna varijabla dodana je u dvosmjernom ANOVA testu. Kad postoje dvije neovisne varijable, trebat ćemo koristiti dvosmjernu ANOVA tehniku, a ne jednosmjernu ANOVA tehniku ​​koja se koristila u prethodnom slučaju kada smo imali jednu kontinuirano ovisnu varijablu i više od jedne neovisne varijable. Da bi se potvrdila dvosmjerna ANOVA, potrebno je udovoljiti više pretpostavki.

  1. Dostupnost neovisnih opažanja
  2. Promatranja bi se trebala normalno distribuirati
  3. Varijacija bi trebala biti jednaka u opažanjima
  4. Neiskusni ljudi ne bi trebali biti prisutni
  5. Neovisne pogreške

Za provjeru dvosmjerne ANOVA skupu podataka dodaje se druga varijabla koja se zove BP. Varijabla pokazuje brzinu krvnog tlaka u bolesnika. Željeli bismo provjeriti postoji li statistička razlika između BP i doze koja se daje pacijentima.

df <- read.csv ("file.csv")
df
anova_two_way <- aov (odgovor ~ trt + BP, podaci = df)
Sažetak (anova_two_way)

Iz rezultata se može zaključiti da se i trt i BP statistički razlikuju od 0. Prema tome, Nulta hipoteza se može odbaciti.

Prednosti ANOVA u R

ANOVA testom se određuje razlika u prosjeku između dvije ili više neovisnih skupina. Ova je tehnika vrlo korisna za analizu više predmeta što je neophodno za analizu tržišta. Korištenjem ANOVA testa možete dobiti potrebne uvide iz podataka. Na primjer, tijekom istraživanja proizvoda u kojem se od korisnika prikupljaju više informacija poput popisa za kupnju, lajkova kupca i nesviđanja. ANOVA test pomaže nam da usporedimo skupine stanovništva. Skupina može biti ili Muškarac vs Ženska ili razne dobne skupine. ANOVA tehnika pomaže u razlikovanju srednjih vrijednosti različitih skupina stanovništva koje su doista različite.

Zaključak - ANOVA u R

ANOVA je jedna od najčešće korištenih metoda ispitivanja hipoteza. U ovom smo članku napravili ANOVA test na skupu podataka koji se sastojao od pedeset pacijenata koji su primali lijek za smanjenje kolesterola i dalje vidjeli kako se dvosmjerna ANOVA može provesti ako je na raspolaganju dodatna neovisna varijabla.

Preporučeni članci

Ovo je vodič za ANOVA u R. Ovdje smo raspravljali o jednosmjernom i dvosmjernom Anova modelu uz primjere i prednosti ANOVA-e. Možete i pregledati naše druge predložene članke -

  1. Regresija vs ANOVA
  2. Što je SPSS?
  3. Kako protumačiti rezultate pomoću ANOVA testa
  4. Funkcije u R

Kategorija: