Što je GLM u R?

Generalizirani linearni modeli podskup je linearnih regresijskih modela koji učinkovito podržavaju ne-normalne distribucije. Da biste to podržali preporučuje se upotreba funkcije glm (). GLM dobro radi s varijablom kada varijanca nije konstantna i distribuirana je normalno. Definirana je funkcija veze radi pretvaranja varijable odziva u odgovarajući model. LM model radi se s obitelji i sa formulom. GLM model ima tri ključne komponente nazvane slučajna (vjerojatnost), sustavna (linearni prediktor), komponenta veze (za funkciju logita). Prednost upotrebe glm-a je u tome što imaju fleksibilnost modela, nema potrebe za stalnom varijancom i ovaj model odgovara maksimalnoj procjeni vjerojatnosti i njegovih omjera. U ovoj ćemo temi saznati o GLM-u u R.

GLM funkcija

Sintaksa: glm (formula, obitelj, podaci, težine, podskup, Start = nula, model = TRUE, metoda = ””…)

Ovdje Porodični tipovi (uključuju vrste modela) uključuju binom, Poisson, Gaussian, gama, kvazi. Svaka distribucija ima različitu upotrebu i može se koristiti bilo u klasifikaciji, tako i u predviđanju. A kad je model gaussian, odgovor bi trebao biti pravi cijeli broj.

A kad je model binoman, odgovor bi trebao biti klase s binarnim vrijednostima.

A kad je model Poisson, odgovor bi trebao biti ne-negativan s numeričkom vrijednošću.

A kad je model gama, odziv bi trebao biti pozitivna numerička vrijednost.

glm.fit () - Za uklapanje u model

Lrfit () - označava logističku regresiju.

update () - pomaže u ažuriranju modela.

anova () - neobvezni test.

Kako stvoriti GLM u R?

Ovdje ćemo vidjeti kako stvoriti jednostavan generalizirani linearni model s binarnim podacima koristeći funkciju glm (). I nastavkom s skupom podataka o Drveću.

Primjeri

// Uvoz knjižnice
library(dplyr)
glimpse(trees)

Da biste vidjeli kategorijske vrijednosti dodijeljeni su faktori.

levels(factor(trees$Girth))

// Provjera kontinuiranih varijabli

library(dplyr)
continuous <-select_if(trees, is.numeric)
summary(continuous)

// Uključivanje skupa podataka stabla u R pretraživanje Pathattach (stabla)

x<-glm(Volume~Height+Girth)
x

Izlaz:

Poziv: glm (formula = volumen ~ visina + opseg)

koeficijenti:

Visina opsega visine

-57.9877 0.3393 4.7082

Stupnjevi slobode: 30 Ukupno (tj. Nulta); 28 Preostali

Nulta devijacija: 8106

Preostalo odstupanje: 421, 9 AIC: 176, 9

summary(x)

Poziv:

glm (formula = volumen ~ visina + opseg)

Preostali odstupanja:

Min. 1Q medijan 3Q maks

-6.4065 -2.6493 -0.2876 2.2003 8.4847

koeficijenti:

Procijenite Std. Pogreška t vrijednosti Pr (> | t |)

(Presretanje) -57.9877 8.6382 -6.713 2.75e-07 ***

Visina 0, 3393 0, 1302 2, 607 0, 0145 *

Opseg 4, 7082 0, 2643 17, 816 <2e-16 ***

-

Znatna. kodovi: 0 '***' 0, 001 '**' 0, 01 '*' 0, 05 '.' 0, 1 '' 1

(Parametri disperzije za obitelj Gauss uzimaju 15.06862)

Nisko odstupanje: 8106, 08 na 30 stupnjeva slobode

Preostala odstupanja: 421, 92 na 28 stupnjeva slobode

AIC: 176.91

Broj ponavljanja Fisher bodovanja: 2

Izlazna funkcija sažetka daje pozive, koeficijente i rezidue. Gornji odgovor pokazuje da su i visina i opseg koeficijenta neznatni jer je vjerojatnost da su manje od 0, 5. A postoje dvije varijante odstupanja nazvane nulta i rezidualna. Konačno, bodovanje riberom je algoritam koji rješava najveću vjerojatnost. Kod binoma, odgovor je vektor ili matrica. cbind () se koristi za vezanje vektora stupaca u matrici. A za dobivanje detaljnih informacija o sažetku sadržaja se koristi.

Da biste napravili Poput testa napa, izvodi se sljedeći kod.

step(x, test="LRT")
Start: AIC=176.91
Volume ~ Height + Girth
Df Deviance AIC scaled dev. Pr(>Chi)
421.9 176.91
- Height 1 524.3 181.65 6.735 0.009455 **
- Girth 1 5204.9 252.80 77.889 < 2.2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Call: glm(formula = Volume ~ Height + Girth)
Coefficients:
(Intercept) Height Girth
-57.9877 0.3393 4.7082
Degrees of Freedom: 30 Total (ie Null); 28 Residual
Null Deviance: 8106
Residual Deviance: 421.9 AIC: 176.9

Model odgovara

a<-cbind(Height, Girth - Height)
> a

Sažetak (stabla)

Girth Height Volume
Min. : 8.30 Min. :63 Min. :10.20
1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
Median :12.90 Median :76 Median :24.20
Mean :13.25 Mean :76 Mean :30.17
3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
Max. :20.60 Max. :87 Max. :77.00

Da biste dobili odgovarajuće standardno odstupanje

apply(trees, sd)
Girth Height Volume
3.138139 6.371813 16.437846
predict <- predict(logit, data_test, type = 'response')

Zatim upućujemo na varijablu odbrojavanja odziva kako bismo modelirali dobru reakciju odgovora. Da bismo to izračunali, poslužit ćemo se podacima USAccDeath.

Unesite sljedeće isječke u R konzolu i pogledajte kako se na njima izvodi broj godina i kvadrat kvadrata.

data("USAccDeaths")
force(USAccDeaths)

// Analizirati godinu od 1973-1978.

disc <- data.frame(count=as.numeric(USAccDeaths), year=seq(0, (length(USAccDeaths)-1), 1)))
yearSqr=disc$year^2
a1 <- glm(count~year+yearSqr, family="poisson", data=disc)
summary(a1)

Poziv:

glm (formula = count ~ godina + godinaSqr, obitelj = "poisson", podaci = disk)

Preostali odstupanja:

Min. 1Q medijan 3Q maks

-22.4344 -6.4401 -0.0981 6.0508 21.4578

koeficijenti:

Procijenite Std. Pogreška z vrijednosti Pr (> | z |)

(Presretanje) 9.187e + 00 3.557e-03 2582.49 <2e-16 ***

godina -7.207e-03 2.354e-04 -30.62 <2e-16 ***

godinaSqr 8.841e-05 3.221e-06 27.45 <2e-16 ***

-

Znatna. kodovi: 0 '***' 0, 001 '**' 0, 01 '*' 0, 05 '.' 0, 1 '' 1

(Parametri disperzije za Poissonovu obitelj uzeti kao 1)

Nisko odstupanje: 7357, 4 na 71 stupnju slobode

Preostala odstupanja: 6358, 0 na 69 stupnjeva slobode

AIC: 7149.8

Broj ponavljanja Fisher bodovanja: 4

Za provjeru najbolje prikladnosti modela može se koristiti sljedeća naredba

ostatke za ispitivanje. Iz rezultata u nastavku vrijednost je 0.

1 - pchisq(deviance(a1), df.residual(a1))

(1) 0

Korištenje obitelji QuasiPoisson za veću varijancu u danim podacima

a2 <- glm(count~year+yearSqr, family="quasipoisson", data=disc)
summary(a2)

Poziv:

glm (formula = count ~ godina + godinaSqr, obitelj = "kvazipoisson",

data = disk)

Preostali odstupanja:

Min. 1Q medijan 3Q maks

-22.4344 -6.4401 -0.0981 6.0508 21.4578

koeficijenti:

Procijenite Std. Pogreška t vrijednosti Pr (> | t |)

(Presretanje) 9.187e + 00 3.417e-02 268.822 <2e-16 ***

godina -7.207e-03 2.261e-03 -3.188 0.00216 **

godinaSqr 8.841e-05 3.095e-05 2.857 0.00565 **

-

(Parametar disperzije za obitelj kvazipoissona za 92.28857)

Nisko odstupanje: 7357, 4 na 71 stupnju slobode

Preostala odstupanja: 6358, 0 na 69 stupnjeva slobode

AIC: NA

Broj ponavljanja Fisher bodovanja: 4

Usporedba Poissona s binomnom vrijednosti AIC-a značajno se razlikuje. Mogu se analizirati preciznošću i omjerom opoziva. Sljedeći je korak provjera ostatka varijance proporcionalna srednjoj vrijednosti. Tada možemo planirati koristeći knjižnicu ROCR za poboljšanje modela.

Zaključak

Stoga smo se usredotočili na poseban model zvan generalizirani linearni model koji pomaže u fokusiranju i procjeni parametara modela. To je prije svega potencijal za varijablu s kontinuiranim odgovorom. I vidjeli smo kako se GLM uklapa u ugrađene R pakete. Najpopularniji su pristupi za mjerenje podataka i robustan alat za klasifikacijske tehnike koje koristi istraživač podataka. R jezik, naravno, pomaže u obavljanju složenih matematičkih funkcija

Preporučeni članci

Ovo je vodič za GLM u R. Ovdje smo raspravljali o GLM funkciji i kako stvoriti GLM u R s primjerima skupa stabala i izlaznim podacima. Možete pogledati i sljedeći članak da biste saznali više -

  1. R Programski jezik
  2. Arhitektura velikih podataka
  3. Logistička regresija u R
  4. Poslovi velike analitike podataka
  5. Poissonova regresija u R | Provođenje Poissonove regresije

Kategorija: