Što je linearna regresija u R?
Linearna regresija najpopularniji je i najčešće korišteni algoritam u području statistike i strojnog učenja. Linearna regresija je tehnika modeliranja kako bi se razumio odnos između ulaznih i izlaznih varijabli. Ovdje varijable moraju biti numeričke. Linearna regresija proizlazi iz činjenice da je izlazna varijabla linearna kombinacija ulaznih varijabli. Izlaz je obično predstavljen sa "y", dok je ulaz predstavljen s "x".
Linearna regresija u R može se podijeliti na dva načina
-
Si mple linearna regresija
Ovo je regresija u kojoj je izlazna varijabla funkcija jedne ulazne varijable. Prikaz jednostavne linearne regresije:
y = c0 + c1 * x1
-
Višestruka linearna regresija
Ovo je regresija u kojoj je izlazna varijabla funkcija više ulazne varijable.
y = c0 + c1 * x1 + c2 * x2
U oba gornja slučaja c0, c1, c2 koeficijent koji predstavlja regresijsku težinu.
Linearna regresija u R
R je vrlo moćan statistički alat. Pa da vidimo kako se linearna regresija može izvesti u R i kako se njezine izlazne vrijednosti mogu interpretirati.
Pripremimo skup podataka, koji će sada dubinski izvesti i razumjeti linearnu regresiju.
Sada imamo skup podataka, gdje su "zadovoljstvo_score" i "year_of_Exp" neovisna varijabla. "Plate_in_lakhs" je izlazna varijabla.
Pozivajući se na gornji skup podataka, problem koji ovdje želimo riješiti linearnom regresijom je:
Procjena plaća zaposlenika na temelju godine iskustva i zadovoljstva u njegovoj tvrtki.
R kod linearne regresije:
model <- lm(salary_in_Lakhs ~ satisfaction_score + year_of_Exp, data = employee.data)
summary(model)
Izlaz gornjeg koda bit će:
Formula regresije postaje
Y = 12, 29-1, 19 * zadovoljstvo_score + 2, 08 × 2 * godina_of_Exp
U slučaju da jedan ima više ulaza u model.
Tada R kod može biti:
model <- lm (plate_in_Lakhs ~., podaci = zaposlenik.data)
Međutim, ako netko želi odabrati varijablu iz više ulaznih varijabli, na raspolaganju su više tehnika poput "nazad uklanjanja", "naprijed odabir" itd.
Tumačenje linearne regresije u R
Ispod su neke interpretacije linearne regresije u r koje su sljedeće:
1.Residuals
To se odnosi na razliku između stvarnog odgovora i predviđenog odgovora modela. Dakle, za svaku će točku postojati jedan stvarni odgovor i jedan predviđeni odgovor. Dakle, ostataka će biti onoliko koliko ima i opažanja. U našem slučaju imamo četiri opažanja, dakle četiri reziduala.
2.Coefficients
Dalje ćemo pronaći odjeljak koeficijenata koji prikazuje presretanje i nagib. Ako se želi predvidjeti plaća zaposlenika na temelju njegovog iskustva i zadovoljstva, treba razviti modelnu formulu koja će se temeljiti na nagibu i presretanju. Ova će vam formula pomoći u predviđanju plaće. Presretanje i nagib pomažu analitičaru da smisli najbolji model koji uredno odgovara podatkovnim točkama.
Nagib: prikazuje strmu liniju.
Presretanje: Mjesto gdje linija siječe osi.
Da razumemo kako se formira formula na temelju nagiba i presretanja.
Recite da je presretanje 3, a nagib 5.
Dakle, formula je y = 3 + 5x . To znači ako je x povećan za jedinicu, y postaje povećan za 5.
a.Keeficijent - procjena
U ovom, presretač označava prosječnu vrijednost izlazne varijable, kada sav ulaz postane nula. Dakle, u našem slučaju, plata u lakhima će biti 12, 29 lakša kao prosjek s obzirom na ocjenu zadovoljstva i iskustvo dolazi na nulu. Ovdje nagib predstavlja promjenu izlazne varijable s promjenom jedinice u ulaznoj varijabli.
b.koeficijent - standardna pogreška
Standardna pogreška je procjena pogreške koju možemo dobiti pri izračunavanju razlike između stvarne i predviđene vrijednosti naše varijable odgovora. Zauzvrat, to govori o pouzdanosti za povezivanje ulaznih i izlaznih varijabli.
c.koeficijent - t vrijednost
Ova vrijednost daje povjerenje u odbacivanje ništavne hipoteze. Što je veća vrijednost od nule, to je veća pouzdanost za odbacivanje nulte hipoteze i uspostavljanje odnosa između izlazne i ulazne varijable. I u našem je slučaju vrijednost nula.
d.Koeficijent - Pr (> t)
Akronim u osnovi prikazuje p-vrijednost. Što se bliži nuli, lakše možemo odbaciti ništavnu hipotezu. Crta koju vidimo u našem slučaju, ta vrijednost je blizu nule, možemo reći da postoji veza između paketa plaća, ocjene zadovoljstva i godine iskustva.
Preostala standardna greška
To prikazuje pogrešku u predviđanju varijable odgovora. Što je niža, veća je točnost modela.
Višestruki R-kvadrat, prilagođeni R-kvadrat
R-kvadrat je vrlo važna statistička mjera za razumijevanje koliko su se podaci blizu uklopili u model. Otuda u našem slučaju koliko dobro naš model koji ima linearnu regresiju predstavlja skup podataka.
Vrijednost R-kvadrata uvijek leži između 0 i 1. Formula je:
Što se bliži vrijednost 1, model bolje opisuje skupove podataka i njihovu varijancu.
Međutim, kada na sliku dođe više od jedne ulazne varijable, preferira se podešena vrijednost R kvadratnog oblika.
F-Statistička
To je snažna mjera za utvrđivanje odnosa između ulazne i varijable odgovora. Što je vrijednost veća od 1, to je veća pouzdanost u odnos između ulazne i izlazne varijable.
U našem slučaju njegov „937, 5“, što je relativno veći s obzirom na veličinu podataka. Zbog toga je odbacivanje ništavne hipoteze lakše.
Ako netko želi vidjeti interval pouzdanosti za koeficijente modela, evo kako to učiniti: -
Vizualizacija regresije
R kod:
parcela (plata_in_Lakhs ~ zadovoljstvo_score + godina_iz_Exp, podaci = zaposlenik.podaci)
abline (model)
Uvijek je bolje prikupiti sve više i više bodova, prije nego što se uklapa u model.
Zaključak - Linearna regresija u R
Linearna regresija je jednostavan, lagan za postavljanje, lako razumljiv, a opet vrlo moćan model. Vidjeli smo kako se linearna regresija može izvesti na R. Pokušali smo i interpretirati rezultate, što vam može pomoći u optimizaciji modela. Kad se jednom ugodno oprostite s jednostavnom linearnom regresijom, treba pokušati s višestrukom linearnom regresijom. Uz to, kako je linearna regresija osjetljiva na ostatke, treba je pogledati, prije nego što direktno uskočite u fitinu do linearne regresije.
Preporučeni članci
Ovo je vodič za linearnu regresiju u R. Ovdje smo raspravljali o tome što je linearna regresija u R? kategorizacija, vizualizacija i interpretacija R. Također možete proći kroz naše druge predložene članke da biste saznali više -
- Prediktivno modeliranje
- Logistička regresija u R
- Stablo odluke u R
- R pitanja o intervjuu
- Glavne razlike regresije i klasifikacije
- Vodič za stablo odluka u strojnom učenju
- Linearna regresija vs logistička regresija | Glavne razlike