Poissonova regresija u R - Provođenje Poissonove regresije

Sadržaj:

Anonim

Uvod u Poissonovu regresiju u R

Poissonova regresija je vrsta regresije koja je slična višestrukoj linearnoj regresiji, osim što je odziv ili ovisna varijabla (Y) brojčana varijabla. Ovisna varijabla slijedi Poissonovu raspodjelu. Prediktor ili neovisne varijable mogu biti kontinuirane ili kategorične prirode. Na neki je način slična Logističkoj regresiji koja također ima diskretnu varijablu odgovora. Prethodno razumijevanje Poissonove distribucije i njenog matematičkog oblika vrlo je važno da bi se moglo iskoristiti za predviđanje. U R-u, Poissonova regresija može se provesti na vrlo učinkovit način. R nudi sveobuhvatan skup funkcionalnosti za njegovu implementaciju.

Provođenje Poissonove regresije

Sada ćemo nastaviti s razumijevanjem kako se model primjenjuje. Sljedeći odjeljak daje postupnu proceduru za isti. Za ovu demonstraciju, razmatramo „sveobuhvatni“ skup podataka iz „udaljenog“ paketa. Odnosi se na raznolikost vrsta na otocima Galapagos. Ukupno ima 7 varijabli u skupu podataka. Pomoću Poissonove regresije definirat ćemo odnos između broja biljnih vrsta (vrsta) i ostalih varijabli u skupu podataka.

1. Prvo umetnite "udaljeni" paket. U slučaju da paket ne postoji, preuzmite ga pomoću funkcije install.packages ().

2. Nakon što se paket učita, ubacite "gala" skup podataka u R pomoću podataka () funkcije kao što je prikazano u nastavku.

3. Učitane podatke treba vizualizirati radi proučavanja varijable i provjere postoje li razlike. Cjelokupne podatke ili samo prvih nekoliko redaka možemo vizualizirati pomoću funkcije head () kao što je prikazano na snimci zaslona.

4. Da dobijemo više uvida u skup podataka, možemo koristiti funkcionalnost pomoći u R kao što je dolje navedeno. Generira R dokumentaciju kao što je prikazano na snimci zaslona nakon snimke zaslona u nastavku.

5. Ako proučavamo skup podataka kao što je spomenuto u prethodnim koracima, tada možemo ustanoviti da su vrste varijabla odgovora. Sada ćemo proučiti osnovni sažetak varijabli predviđanja.

Napomena, kao što je vidljivo gore, izuzeli smo varijablu Vrste. Funkcija sažetka daje nam osnovne uvide. Dovoljno je promatrati srednje vrijednosti za svaku od tih varijabli i možemo ustanoviti da ogromna razlika, u smislu raspona vrijednosti, postoji između prve polovine i druge polovice, npr. Za srednju vrijednost varijable Area iznosi 2, 59, ali maksimalna vrijednost je 4669.320.

6. Sada kada smo završili s osnovnom analizom, generirat ćemo histogram za vrste kako bismo provjerili da li varijabla slijedi Poissonovu raspodjelu. Ovo je prikazano u nastavku.

Gornji kod generira histogram za varijabilnu vrstu, zajedno s krivuljom gustoće koja je nad njim postavljena.

Gornja vizualizacija pokazuje da vrste slijede Poissonovu raspodjelu, jer su podaci ispravni. Možemo generirati i boxplot da dobijemo više uvida u obrazac distribucije kao što je prikazano u nastavku.

7. Nakon dovršetka preliminarne analize, primijenit ćemo Poissonovu regresiju kao što je prikazano u nastavku

Na temelju gornje analize, otkrivamo da su varijable Endemics, Area i Najbliže značajne i da je samo njihovo uključivanje dovoljno za izgradnju ispravnog Poissonova regresijskog modela.

8. Izgradit ćemo modificirani Poissonov regresijski model uzimajući u obzir tri varijable samo viz. Endemije, područja i najbliže. Pogledajmo kakve rezultate dobivamo.

Izlaz proizvodi odstupanja, regresijske parametre i standardne pogreške. Vidimo da je svaki od parametara značajan na razini p <0, 05.

9. Sljedeći je korak interpretacija parametara modela. Modelni koeficijenti mogu se dobiti ili ispitivanjem koeficijenata u gornjem izlaganju ili upotrebom coef () funkcije.

U Poissonovoj regresiji ovisna varijabla modelira se kao zapis uvjetno prosječne lože (l). Regresijski parametar od 0, 0355 za Endemics ukazuje da je povećanje jedne varijable u jedinici povezano s povećanjem od 0, 04 za prosječni broj vrsta vrsta, držeći ostale varijable konstantnima. Presretni je prosječni broj vrsta kada je svaki od predviđača jednak nuli.

10. Međutim, mnogo je lakše protumačiti regresijske koeficijente u izvornoj skali ovisne varijable (broj vrsta, a ne broj vrsta vrsta). Izlaganje koeficijenata omogućit će lako tumačenje. To se radi na sljedeći način.

Iz gornjih otkrića možemo reći da je jedna jedinica na prostoru umnožena očekivanim brojem vrsta za 0, 9999, a povećanjem broja endemskih vrsta koje predstavlja Endemics, množi se broj vrsta za 1, 0361. Najvažniji aspekt Poissonove regresije je da eksponirani parametri imaju multiplikativni, a ne aditivni učinak na varijablu odgovora.

11. Korištenjem gornjih koraka, dobili smo Poissonov regresijski model za predviđanje broja biljnih vrsta na Galapagoskim otocima. Međutim, vrlo je važno provjeriti postoji li prekomjerna disperzija. U Poissonovoj regresiji varijanca i srednja su jednaki.

Prekomjerna disperzija nastaje kada je promatrana varijanca varijable odgovora veća nego što bi predviđala Poissonova distribucija. Analiza prevelike disperzije postaje važna jer je uobičajena za podatke o broju i može negativno utjecati na krajnje rezultate. U R-u, prekomjerna disperzija se može analizirati pomoću "qcc" paketa. Analiza je ilustrirana u nastavku.

Gornji značajni test pokazuje da je p-vrijednost manja od 0, 05, što snažno ukazuje na prisutnost prevelike disperzije. Pokušat ćemo uklopiti model pomoću funkcije glm (), zamijenivši obitelj = „Poisson“ sa porodicom = „kvazipoisson“. Ovo je prikazano u nastavku.

Pomno proučavajući gornji ishod, možemo vidjeti da su procjene parametara u kvazi-Poissonovom pristupu identične onima koje je proizveo Poissonov pristup, mada su standardne pogreške različite za oba pristupa. Štoviše, u ovom je slučaju za Area p-vrijednost veća od 0, 05 zbog veće standardne pogreške.

Važnost Poissonove regresije

  • Poissonova regresija u R korisna je za ispravno predviđanje diskretne / brojačke varijable.
  • Pomaže nam identificirati one eksplanatorne varijable koje imaju statistički značajan utjecaj na varijablu odgovora.
  • Poissonova regresija u R najprikladnija je za događaje „rijetke“ prirode jer imaju tendenciju da prate Poissonovu distribuciju u odnosu na uobičajene događaje koji obično slijede normalnu distribuciju.
  • Prikladna je za primjenu u slučajevima kada je varijabla odziva mali cijeli broj.
  • Ima široku primjenu jer je predviđanje diskretnih varijabli presudno u mnogim situacijama. U medicini se može koristiti za predviđanje utjecaja lijeka na zdravlje. Često se koristi u analizi preživljavanja poput smrti bioloških organizama, neuspjeha mehaničkih sustava itd.

Zaključak

Poissonova regresija temelji se na konceptu Poissonove raspodjele. Druga je kategorija koja pripada skupu regresijskih tehnika koja kombinira svojstva linearnih i logističkih regresija. Međutim, za razliku od Logističke regresije koja stvara samo binarni izlaz, koristi se za predviđanje diskretne varijable.

Preporučeni članci

Ovo je vodič za Poisson regresiju u R. Ovdje smo raspravljali o uvodu Poisson regresije i važnosti Poisson regresije. Možete i proći kroz naše druge predložene članke da biste saznali više -

  1. GLM u R
  2. Generator slučajnih brojeva u R
  3. Regresijska formula
  4. Logistička regresija u R
  5. Linearna regresija vs logistička regresija | Glavne razlike