Što je regresijska analiza? - Vrste i prednosti regresijske analize

Sadržaj:

Anonim

Uvod u regresijsku analizu

Regresijska analiza je algoritam prediktivnog modeliranja koji predviđa ishod varijable i identificira varijable (neovisne varijable) koje doprinose ili ovise o varijabli ishoda (ciljna ili ovisna varijabla). Jednostavno rečeno, to je tehnika pronalaženja odnosa između neovisnih i ovisnih varijabli za dobivanje rezultata. Lako je koristiti i interpretirati rezultat. Postoje mnoge vrste regresijskih tehnika koje se široko koriste u raznim sektorima. Neki od primjera regresije predviđaju plaću zaposlenika ili prihod tvrtke u godinu dana.

Kako je funkcionirala regresijska analiza?

Postoje mnoge vrste regresijskih tehnika koje se koriste uzimajući u obzir različite čimbenike i ishode.

  • Linearna regresija
  • Logistička regresija
  • Lasso / Ridge regresija
  • Polinomna regresija

U nastavku su navedeni neki od važnih statističkih regresijskih testova koji se koriste u različitim sektorima:

1. Linearna regresija

Koristi se kada je varijabla ishoda linearno ovisna o neovisnim varijablama. Obično se koristi kada nemamo ogroman skup podataka. Također je osjetljiv na odmetnike, pa ako skup podataka sadrži odmetnike, bolje je tretirati ih prije primjene linearne regresije. Postoje jednostruke i više varijabilne regresijske tehnike. Jednostavna linearna regresija je analiza kada ishodna varijabla linearno ovisi o jednoj neovisnoj varijabli. Jednostavna linearna regresija slijedi jednadžbu pravocrtne crte koja je dana u nastavku:

Y=mx+c

Gdje,

Y = Ciljana, ovisna ili varijabla kriterija

x = Neovisna ili predviđajuća varijabla

m = koeficijent nagiba ili regresije

c = konstanta

Multi-varijabilna linearna regresija definira odnos između izlazne varijable i više od jedne neovisne varijable. Slijedi donja jednadžba ravne linije gdje su ovisne varijable linearna kombinacija svih neovisnih varijabli:

Y= m1x1+m2x2+m3x3+…mnan+c

Gdje,

Y = Ciljana, ovisna ili varijabla kriterija

x1, x2, x3… xn = Neovisne ili predviđajuće varijable

m1, m2, m3… mn = Koeficijenti nagiba ili regresije odgovarajućih varijabli

c = konstanta

Linearna regresija slijedi princip metode najmanje kvadrata. Ova metoda kaže da se odabire najprikladnija linija smanjenjem zbroja kvadratne pogreške. Linija koja najbolje odgovara je odabrana tamo gdje je zbroj kvadratne pogreške između promatranih podataka i crte najmanji.

Postoje neke pretpostavke na koje treba paziti prije primjene linearne regresije na skup podataka.

  • Trebao bi postojati linearni odnos između neovisnih i ovisnih varijabli.
  • Između neovisnih varijabli ne bi trebalo biti malo ili malo višekolinearnosti. Multikolinearnost je definirana kao pojava u kojoj postoji visoka povezanost između neovisnih varijabli. Multikolinearnost možemo tretirati tako da izbacimo jednu varijablu koja je u korelaciji ili dvije varijable tretira kao jednu varijablu.
  • Homoscedastičnost: Definira se kao stanje u kojem se pojmovi pogreške trebaju nasumično raspodijeliti preko crte u regresijskoj analizi. Ne smije biti nikakav uzorak preko crte ako postoji neki identificirani uzorak od onoga što se kaže da su podaci heteroscedastični.
  • Sve varijable bi trebale biti normalno raspoređene, što vidimo crtanjem QQ crteža. Ako se podaci normalno ne distribuiraju, za to možemo koristiti bilo koje nelinearne metode transformacije.

Dakle, preporučljivo je testirati pretpostavke uz primjenu linearne regresije za postizanje dobre točnosti i točnih rezultata.

2. Logistička regresija

Ova se regresijska tehnika koristi kada je varijabla cilja ili ishoda kategorične ili binarne prirode. Glavna razlika između linearne i logističke regresije leži u ciljnoj varijabli, u linearnoj regresiji ona bi trebala biti kontinuirana, dok bi u logističkoj trebala biti kategorična. Ishodna varijabla trebala bi imati samo dvije klase, ne više od toga. Neki od primjera su filtri neželjene pošte u e-porukama (neželjena pošta ili ne), otkrivanje prijevara (prijevara / ne prijevara) itd. Djeluje na principu vjerojatnosti. Može se razvrstati u dvije kategorije postavljanjem granične vrijednosti.

Na primjer: Ako postoje dvije kategorije A, B i postavimo graničnu vrijednost kao 0, 5, vjerojatnost iznad 0, 5 smatrat će se jednom kategorijom, a ispod 0, 5 će biti druga kategorija. Logistička regresija slijedi krivulju u obliku slova S. Prije izrade modela logističke regresije moramo podijeliti skup podataka na trening i testiranje. Budući da je ciljna varijabla kategorična ili binarna, moramo osigurati postojanje pravilnog balansa u klasama. Ako postoji neravnoteža klase, tada se to može liječiti raznim metodama kao što je spomenuto u nastavku:

  • Gore uzorkovanje: u ovoj se tehnici klasa koja ima manje redaka uzorkuje preko broja redaka većinske klase.
  • Uzorkovanje prema dolje: U ovoj se tehnici klasa koja ima više redaka uzorkuje prema broju redova manjinske klase.

Postoje neke važne točke koje je važno razumjeti prije primjene logističkog regresijskog modela na skupove podataka:

  • Ciljna varijabla bi trebala biti binarne prirode. Ako u ciljnoj varijabli postoji više od 2 klase, to je poznato kao Multinomial Logistic Regression .
  • Između neovisnih varijabli ne bi trebalo biti malo ili malo višekolinearnosti.
  • Za rad je potrebna ogromna veličina uzorka.
  • Treba postojati linearni odnos između neovisnih varijabli i dnevnika kvota.

Prednosti regresije

Postoje mnoge prednosti regresijske analize. Umjesto da razmotrimo svoj osjećaj crijeva i predvidimo ishod, možemo upotrijebiti regresijsku analizu i pokazati valjane bodove za moguće ishode.

Neke od njih navedene su u nastavku:

  • Predvidjeti prodaju i prihode u bilo kojem sektoru za kraća ili duža razdoblja.
  • Predvidjeti stopu rasta kupca u bilo kojoj industriji i pronaći prikladne mjere za njihovo smanjivanje.
  • Da bi se razumjela i predvidjela razina zaliha skladišta.
  • Otkrivanje hoće li uvođenje novog proizvoda na tržište biti uspješno ili ne.
  • Da biste predvidjeli hoće li neki kupac platiti zajam ili ne.
  • Da biste predvidjeli hoće li neki kupac kupiti proizvod ili ne.
  • Otkrivanje prijevara ili neželjene pošte

Zaključak

Postoje različite metrike ocjenjivanja koje se razmatraju nakon primjene modela. Iako postoje pretpostavke potrebne za testiranje prije primjene modela, uvijek možemo mijenjati varijable pomoću različitih matematičkih metoda i povećati performanse modela.

Preporučeni članci

Ovo je vodič za regresijsku analizu. Ovdje razgovaramo o Uvodu u regresijsku analizu, kako je funkcionirala regresijska analiza i prednosti regresije. Možete i proći kroz naše druge predložene članke da biste saznali više -

  1. Analiza linearne regresije
  2. Alati za analizu podataka
  3. Alati za ispitivanje regresije
  4. Analitika velikih podataka
  5. Regresija vs klasifikacija | Glavne ključne razlike