Uvod Logistička regresija u R

Logistička regresija u R također poznata kao problemi binarne klasifikacije. Koriste se za predviđanje ishoda kao (1 ili 0 da / ne) za nezavisnu varijablu. Da bismo razumjeli logističku regresiju u R, važno je znati osnovnu linearnu regresiju, djeluje s varijabilnom konstantnom ishodom. Konkretnije možemo reći da je produžetak linearne regresije. U ovom ćemo članku raspravljati o različitim metodama koje se koriste za izračunavanje modela i evaluacije. Logistička regresija koristi se za rješavanje klasifikacijskih problema u strojnom učenju.

Kako djeluje logistička regresija u R?

Logistička regresija je tehnika koja se koristi u području statistike za mjerenje razlike između ovisne i neovisne varijable s vodičem logističke funkcije procjenom različitih pojava vjerojatnosti. Oni mogu biti ili binomni (ima da ili nema ishoda) ili multinomalni (fer prema lošim i vrlo loši). Vrijednosti vjerojatnosti leže između 0 i 1, a varijabla bi trebala biti pozitivna (<1). Cilja na ovisnu varijablu i ima sljedeće korake za slijediti:

  1. n- nema fiksnih pokusa na uzetom skupu podataka
  2. s dva ishoda suđenja
  3. ishod vjerojatnosti trebao bi biti neovisan jedan o drugom
  4. Vjerojatnost uspjeha i neuspjeha mora biti ista kod svakog pokusa.

U ovom slučaju razmatramo primjer uzimanjem paketa ISLR koji pruža različite skupove podataka za obuku. Ovdje se koristi općenita funkcija linearnog modela (glm). Za izgradnju logističke regresije poželjna je funkcija glm i dobiva njihove detalje pomoću sažetka za zadatak analize.

Radni koraci:

Radni koraci na logističkoj regresiji prate određene terminske elemente poput

  • Modeliranje vjerojatnosti ili procjena vjerojatnosti
  • proricanje
  • Pokretanje vrijednosti praga (visoka ili niska specifičnost)
  • Matrica zbrke
  • Područje crtanja ispod krivulje (AUC)

Primjeri

Ispod je nekoliko primjera logističke regresije u R:

Učitavanje podataka:

Instaliranje ISLR paketa.

zahtijevaju (ISLR)

Učitavanje potrebnog paketa: ISLR

Za ovaj članak, koristit ćemo skup podataka "Weekly" u RStudio-u. Skup podataka uključuje sažetke detalja tjednih zaliha od 1990. do 2010.

zahtijevaju (ISLR)

imena (SL)

Izlaz:

(1) "Kupnja" "Weekof Purchase" "StoreID" "PriceCH"

(5) "PriceMM" "DiscCH" "DiscMM" "SpecialCH"

(9) "SpecialMM" "LoyalCH" "SalePriceMM" "SalePriceCH"

(13) "PriceDiff" "Store7" "PctDiscMM" "PctDiscCH"

(17) "ListPriceDiff" "STORE"

str (SL)

Prikazuje 1070 opažanja 18 varijabli.

Naš skup podataka ima 1070 promatranja i 18 različitih varijabli. ovdje imamo specijalni MM i poseban CH ima ovisan ishod. Uzmimo poseban atribut MM da bismo imali ispravno promatranje i točnost od 84%.

stol (SL $ SpecialMM)

0 1

897. 173

Sljedeće pronaći vjerojatnost

897/1070

(1) 0, 8383178

U sljedećem koraku za bolji uzorak Podjela skupa podataka na skup podataka za trening i testiranje je goo

knjižnica (caTools)

set.seed (88)

split = sample.split (SL $ SpecialMM, SplitRatio = 0, 84)

Uzimajući u obzir da qt ima skup treninga, a qs uzorke podataka testnog skupa.

qt = podskup (SL, split == TRUE)

L = podskup (SL, split == FALSE)

nrow (qt)

(1) 898

nrow (L)

(1) 172

Stoga imamo 898 skupa za obuku i 172 uzorka za testiranje.

Sljedeće korištenje Summary () daje detalje odstupanja i koefikasne tablice za regresijsku analizu.

QualityLog = glm (SpecialMM ~ SalePriceMM + Weekof Purchase, data = qt, family = binomial)

Sažetak (QualityLog)

Izlaz:

Poziv:

glm (formula = SpecialMM ~ SalePriceMM + WeekofKupovina, obitelj = binom,

data = qt)

Preostali odstupanja:

Min. 1Q medijan 3Q maks

-1.2790 -0.4182 -0.3687 -0.2640 2.4284

koeficijenti:

Procijenite Std. Pogreška z vrijednosti Pr (> | z |)

(Presretanje) 2.910774 1.616328 1.801 0.07173.

ProdajaCijenaMM -4.538464 0.405808 -11.184 <2e-16 ***

Weekof Kupovina 0.015546 0.005831 2.666 0.00767 **

-

Nulta odstupanja: 794, 01 na 897 stupnjeva slobode

Preostala odstupanja: 636, 13 na 895 stupnjeva slobode

AIC: 642.13

Broj ponavljanja Fisher bodovanja: 5

Iz gornje analize je rečeno da tablica koeficijenata daje pozitivne vrijednosti za WeekofPurchase i da imaju najmanje dvije zvijezde što znači da su oni značajni kodovi modela.

Tehnika predviđanja:

Ovdje ćemo upotrijebiti funkciju predviđanja vlaka u ovom R paketu i pružiti vjerojatnosti da koristimo argument nazvan type = odgovor. Pogledajmo predviđanje primijenjeno na set za trening (qt). R predviđa ishod u obliku P (y = 1 | X) s graničnom vjerojatnošću od 0, 5.

predictTrain = predvidi (QualityLog, type = "odgovor")

Sažetak rezultira srednjim, srednjim i min, max vrijednostima.

sažetak (predictTrain) Izvršenje daje

Min. 1. Qu.Median Mean 3. Qu.Max.

0, 02192 0, 03342 0, 07799 0, 16147 0, 25395 0, 89038

dodirnite (predviđanje vozova, qt $ SpecialMM)

Za izračunavanje prosjeka za istinsku vjerojatnost koristi se funkcija tapply ().

tapply (predictTrain, qt $ SpecialMM, srednja)

0 1

0.1224444 0.3641334

Stoga u gornjoj tvrdnji nalazimo da mogućnost istinskog SpecialMM znači vrijednost 0, 34, a za istinsku lošu vrijednost 0, 12.

Izračunavanje granične vrijednosti:

ako je P> T - predviđanje loše, poseban MM

ako je P

Matrica klasifikacije:

tablica (qt $ SpecialMM, predviđanje prometa> 0, 5)

FALSE TRUE

0 746 7

1 105 40

Za računanje osjetljivosti i specifičnosti

40/145

(1) 0, 2758621

746/753

(1) 0, 9907039

Set za testiranje Predviđanje

predictTest = predviđati (QualityLog, type = "odgovor", novi podaci = qs)

tablica (qs $ SpecialMM, predictTest> = 0, 3)

FALSE TRUE

0 130 14

1 10 18

tablica (qs $ SpecialMM, predictTest> = 0, 5)

FALSE TRUE

0 140 4

1 18 10

Točnost izračuna

150/172

(1) 0, 872093

Postoje 172 slučaja od kojih je 144 dobro, a 28 loše.

Crtanje krivulje ROC:

Ovo je posljednji korak crtanjem krivulje ROC za mjerenja performansi. Dobra vrijednost AUC trebala bi biti bliža 1, a ne 0, 5. Provjera vjerojatnosti 0, 5, 0, 7, 0, 2 za predviđanje kako se vrijednost praga povećava i smanjuje. Provodi se crtanjem graničnih vrijednosti istovremeno u ROC krivulji. Dobar izbor je odabir s obzirom na veću osjetljivost.

Tehnike logističke regresije

Pogledajmo implementaciju logistike pomoću R jer vrlo jednostavno uklapa model. Postoje dvije vrste tehnika:

  • Multinomalna logistička regresija
  • Obična logistička regresija

Bivši radi s varijablama odgovora kada imaju više ili jednake dvije klase. kasnije djeluje kada je poredak značajan.

Zaključak

Dakle, naučili smo osnovnu logiku koja stoji iza regresije, usporedo s tim što smo implementirali logističku regresiju na određeni skup podataka R. Binomna ili binarna regresija mjeri kategorijske vrijednosti binarnih odgovora i prediktorskih varijabli. Oni igraju vitalnu ulogu u analitici, gdje stručnjaci industrije očekuju poznavanje linearne i logističke regresije. Oni imaju svoje izazove i u praktičnom primjeru napravili smo s koracima na čišćenju podataka, prethodnoj obradi. Sve što smo vidjeli, logistička regresija rješava problem kategoričkog ishoda na jednostavan i lagan način.

Preporučeni članci

Ovo je vodič za Logističku regresiju u R. Ovdje smo raspravljali o radu, različitim tehnikama i širokim objašnjenjima različitih metoda koje se koriste u Logističkoj regresiji u R. Možete pogledati i sljedeće članke da biste saznali više -

  1. Okviri strojnog učenja
  2. R vs Python
  3. Funkcije struna Pythona
  4. Je li Python skriptni jezik
  5. Binomna raspodjela u R | Sintaksa
  6. Regresija vs klasifikacija

Kategorija: