Linearna regresija u R - Kako objasniti linearnu regresiju s primjerima

Sadržaj:

Anonim

Što je linearna regresija u R?

Linearna regresija najpopularniji je i najčešće korišteni algoritam u području statistike i strojnog učenja. Linearna regresija je tehnika modeliranja kako bi se razumio odnos između ulaznih i izlaznih varijabli. Ovdje varijable moraju biti numeričke. Linearna regresija proizlazi iz činjenice da je izlazna varijabla linearna kombinacija ulaznih varijabli. Izlaz je obično predstavljen sa "y", dok je ulaz predstavljen s "x".

Linearna regresija u R može se podijeliti na dva načina

  1. Si mple linearna regresija

Ovo je regresija u kojoj je izlazna varijabla funkcija jedne ulazne varijable. Prikaz jednostavne linearne regresije:

y = c0 + c1 * x1

  1. Višestruka linearna regresija

Ovo je regresija u kojoj je izlazna varijabla funkcija više ulazne varijable.

y = c0 + c1 * x1 + c2 * x2

U oba gornja slučaja c0, c1, c2 koeficijent koji predstavlja regresijsku težinu.

Linearna regresija u R

R je vrlo moćan statistički alat. Pa da vidimo kako se linearna regresija može izvesti u R i kako se njezine izlazne vrijednosti mogu interpretirati.

Pripremimo skup podataka, koji će sada dubinski izvesti i razumjeti linearnu regresiju.

Sada imamo skup podataka, gdje su "zadovoljstvo_score" i "year_of_Exp" neovisna varijabla. "Plate_in_lakhs" je izlazna varijabla.

Pozivajući se na gornji skup podataka, problem koji ovdje želimo riješiti linearnom regresijom je:

Procjena plaća zaposlenika na temelju godine iskustva i zadovoljstva u njegovoj tvrtki.

R kod linearne regresije:

model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)

Izlaz gornjeg koda bit će:

Formula regresije postaje

Y = 12, 29-1, 19 * zadovoljstvo_score + 2, 08 × 2 * godina_of_Exp

U slučaju da jedan ima više ulaza u model.

Tada R kod može biti:

model <- lm (plate_in_Lakhs ~., podaci = zaposlenik.data)

Međutim, ako netko želi odabrati varijablu iz više ulaznih varijabli, na raspolaganju su više tehnika poput "nazad uklanjanja", "naprijed odabir" itd.

Tumačenje linearne regresije u R

Ispod su neke interpretacije linearne regresije u r koje su sljedeće:

1.Residuals

To se odnosi na razliku između stvarnog odgovora i predviđenog odgovora modela. Dakle, za svaku će točku postojati jedan stvarni odgovor i jedan predviđeni odgovor. Dakle, ostataka će biti onoliko koliko ima i opažanja. U našem slučaju imamo četiri opažanja, dakle četiri reziduala.

2.Coefficients

Dalje ćemo pronaći odjeljak koeficijenata koji prikazuje presretanje i nagib. Ako se želi predvidjeti plaća zaposlenika na temelju njegovog iskustva i zadovoljstva, treba razviti modelnu formulu koja će se temeljiti na nagibu i presretanju. Ova će vam formula pomoći u predviđanju plaće. Presretanje i nagib pomažu analitičaru da smisli najbolji model koji uredno odgovara podatkovnim točkama.

Nagib: prikazuje strmu liniju.
Presretanje: Mjesto gdje linija siječe osi.
Da razumemo kako se formira formula na temelju nagiba i presretanja.
Recite da je presretanje 3, a nagib 5.
Dakle, formula je y = 3 + 5x . To znači ako je x povećan za jedinicu, y postaje povećan za 5.

a.Keeficijent - procjena

U ovom, presretač označava prosječnu vrijednost izlazne varijable, kada sav ulaz postane nula. Dakle, u našem slučaju, plata u lakhima će biti 12, 29 lakša kao prosjek s obzirom na ocjenu zadovoljstva i iskustvo dolazi na nulu. Ovdje nagib predstavlja promjenu izlazne varijable s promjenom jedinice u ulaznoj varijabli.

b.koeficijent - standardna pogreška

Standardna pogreška je procjena pogreške koju možemo dobiti pri izračunavanju razlike između stvarne i predviđene vrijednosti naše varijable odgovora. Zauzvrat, to govori o pouzdanosti za povezivanje ulaznih i izlaznih varijabli.

c.koeficijent - t vrijednost

Ova vrijednost daje povjerenje u odbacivanje ništavne hipoteze. Što je veća vrijednost od nule, to je veća pouzdanost za odbacivanje nulte hipoteze i uspostavljanje odnosa između izlazne i ulazne varijable. I u našem je slučaju vrijednost nula.

d.Koeficijent - Pr (> t)

Akronim u osnovi prikazuje p-vrijednost. Što se bliži nuli, lakše možemo odbaciti ništavnu hipotezu. Crta koju vidimo u našem slučaju, ta vrijednost je blizu nule, možemo reći da postoji veza između paketa plaća, ocjene zadovoljstva i godine iskustva.

Preostala standardna greška

To prikazuje pogrešku u predviđanju varijable odgovora. Što je niža, veća je točnost modela.

Višestruki R-kvadrat, prilagođeni R-kvadrat

R-kvadrat je vrlo važna statistička mjera za razumijevanje koliko su se podaci blizu uklopili u model. Otuda u našem slučaju koliko dobro naš model koji ima linearnu regresiju predstavlja skup podataka.

Vrijednost R-kvadrata uvijek leži između 0 i 1. Formula je:

Što se bliži vrijednost 1, model bolje opisuje skupove podataka i njihovu varijancu.

Međutim, kada na sliku dođe više od jedne ulazne varijable, preferira se podešena vrijednost R kvadratnog oblika.

F-Statistička

To je snažna mjera za utvrđivanje odnosa između ulazne i varijable odgovora. Što je vrijednost veća od 1, to je veća pouzdanost u odnos između ulazne i izlazne varijable.

U našem slučaju njegov „937, 5“, što je relativno veći s obzirom na veličinu podataka. Zbog toga je odbacivanje ništavne hipoteze lakše.

Ako netko želi vidjeti interval pouzdanosti za koeficijente modela, evo kako to učiniti: -

Vizualizacija regresije

R kod:

parcela (plata_in_Lakhs ~ zadovoljstvo_score + godina_iz_Exp, podaci = zaposlenik.podaci)
abline (model)

Uvijek je bolje prikupiti sve više i više bodova, prije nego što se uklapa u model.

Zaključak - Linearna regresija u R

Linearna regresija je jednostavan, lagan za postavljanje, lako razumljiv, a opet vrlo moćan model. Vidjeli smo kako se linearna regresija može izvesti na R. Pokušali smo i interpretirati rezultate, što vam može pomoći u optimizaciji modela. Kad se jednom ugodno oprostite s jednostavnom linearnom regresijom, treba pokušati s višestrukom linearnom regresijom. Uz to, kako je linearna regresija osjetljiva na ostatke, treba je pogledati, prije nego što direktno uskočite u fitinu do linearne regresije.

Preporučeni članci

Ovo je vodič za linearnu regresiju u R. Ovdje smo raspravljali o tome što je linearna regresija u R? kategorizacija, vizualizacija i interpretacija R. Također možete proći kroz naše druge predložene članke da biste saznali više -

  1. Prediktivno modeliranje
  2. Logistička regresija u R
  3. Stablo odluke u R
  4. R pitanja o intervjuu
  5. Glavne razlike regresije i klasifikacije
  6. Vodič za stablo odluka u strojnom učenju
  7. Linearna regresija vs logistička regresija | Glavne razlike