Linearna regresija vs logistička regresija - Top 6 razlike za učenje

Sadržaj:

Anonim

Razlika između linearne regresije i logističke regresije

Sljedeći članak Linearna regresija vs logistička regresija pruža najvažnije razlike između obojice, ali prije nego što ćemo vidjeti što znači regresija?

Regresija

Regresija je u osnovi statistička mjera kojom se utvrđuje jačina veze između jedne ovisne varijable, tj. Izlaza Y i niza drugih neovisnih varijabli, tj. X 1, X 2 i tako dalje. Regresijska analiza u osnovi se koristi za predviđanje i predviđanje.

Što je linearna regresija?

Linearna regresija je algoritam koji se temelji na nadziranoj domeni strojnog učenja. Nasljeđuje linearni odnos između svojih ulaznih varijabli i pojedinačne izlazne varijable gdje je izlazna varijabla u prirodi kontinuirana. Koristi se za predviđanje vrijednosti izlaza, recimo Y iz ulaza, recimo X. Kada se smatra samo jedan ulaz, to se zove jednostavna linearna regresija.

Može se razvrstati u dvije glavne kategorije:

1. Jednostavna regresija

Načelo rada: Glavni cilj je pronaći jednadžbu ravne linije koja najbolje odgovara uzorkovanim podacima. Ova jednadžba algebrično opisuje odnos između dvije varijable. Ravna linija koja najbolje pristaje naziva se regresijska linija.

Y = β 0 + β 1 X

Gdje,

β predstavlja značajke

β 0 predstavlja presretanje

β 1 predstavlja koeficijent svojstva X

2. Multivarijabilna regresija

Koristi se za predviđanje povezanosti između više nezavisnih varijabli i jedne ovisne varijable. Regresija s više od dvije neovisne varijable temelji se na uklapanju oblika u konstelaciju podataka na višedimenzionalnom grafu. Oblik regresije treba biti takav da minimizira udaljenost oblika od svake podatkovne točke.

Model linearnog odnosa može se matematički predstaviti na sljedeći način:

Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ……. + β n X n

Gdje,

β predstavlja značajke

β 0 predstavlja presretanje

β 1 predstavlja koeficijent svojstva X1

β n predstavlja koeficijent obilježja X n

Prednosti i nedostaci linearne regresije

U nastavku su navedene prednosti i nedostaci:

prednosti

  • Zbog svoje jednostavnosti, široko se koristi modeliranje za predviđanja i zaključke.
  • Usmjeren je na analizu podataka i predobradu podataka. Dakle, bavi se različitim podacima bez muke oko detalja modela.

Nedostaci

  • Učinkovito djeluje kada se podaci normalno distribuiraju. Stoga se za učinkovito modeliranje mora izbjegavati kolinearnost.

Što je logistička regresija?

To je oblik regresije koji omogućava predviđanje diskretnih varijabli mješavinom kontinuiranih i diskretnih prediktora. Rezultat je jedinstvena transformacija ovisnih varijabli koja utječe ne samo na postupak procjene, već i na koeficijente neovisnih varijabli. Bavi se istim pitanjem koje ima višestruka regresija, ali bez distribucijskih pretpostavki o prediktorima. U logističkoj regresiji varijabla ishoda je binarna. Svrha analize je procijeniti učinke više objašnjivih varijabli, koje mogu biti numeričke ili kategoričke ili oboje.

Vrste logističke regresije

Ispod su dvije vrste logističke regresije:

1. Binarna logistička regresija

Koristi se kada je ovisna varijabla dihotomna tj. Poput stabla s dvije grane. Koristi se kada je ovisna varijabla neparametarska.

Koristi se kad

  • Ako nema linearnosti
  • Postoje samo dvije razine ovisne varijable.
  • Ako je multivarna normalnost dvojbena.

2. Multinomalna logistička regresija

Multinominalna logistička regresijska analiza zahtijeva da neovisne varijable budu metričke ili dihotomne. Ne daje nikakve pretpostavke linearnosti, normalnosti i homogenosti varijance za neovisne varijable.

Koristi se kada ovisna varijabla ima više od dvije kategorije. Koristi se za analizu odnosa između ne metričke ovisne varijable i metričkih ili dihotomskih neovisnih varijabli, zatim uspoređuje više skupina kombinacijom binarnih logističkih regresija. Na kraju, on pruža skup koeficijenata za svaku od dvije usporedbe. Koeficijenti za referentnu skupinu su sve nule. Konačno, predviđanje se vrši na temelju najveće rezultirajuće vjerojatnosti.

Prednost logističke regresije: To je vrlo učinkovita i široko korištena tehnika jer ne zahtijeva mnogo računskih resursa i ne zahtijeva podešavanje.

Nedostatak logističke regresije: Ne može se koristiti za rješavanje nelinearnih problema.

Usporedba između linearne regresije i logističke regresije (Infographics)

Ispod je top 6 razlike između linearne regresije i logističke regresije

Ključna razlika između linearne regresije i logističke regresije

Razgovarajmo o nekim glavnim ključnim razlikama između linearne regresije i logističke regresije

Linearna regresija

  • To je linearni pristup
  • Koristi ravnu crtu
  • Ne može preuzeti kategorijske varijable
  • Mora zanemariti opažanja s nedostajućim vrijednostima numeričke neovisne varijable
  • Izlaz Y je dan kao

  • 1 jedinica povećanja x povećava Y za α

Prijave

  • Predviđanje cijene proizvoda
  • Predviđanje rezultata u utakmici

Logistička regresija

  • To je statistički pristup
  • Koristi sigmoidnu funkciju
  • Može uzeti kategoričke varijable
  • Može donositi odluke čak i ako su prisutna zapažanja s nedostajućim vrijednostima
  • Izlaz Y dan je kao, gdje je z dan kao

  • Povećanje za 1 jedinicu u x povećava Y zabojem od α
  • Ako je P vjerojatnost nekog događaja, tada je (1-P) vjerojatnost da se on neće dogoditi. Kvote uspjeha = P / 1-P

Prijave

  • Predviđajući hoće li danas kiša ili ne.
  • Predviđanje je li e-pošta neželjena pošta ili ne.

Tabela usporedbe linearne regresije i logističke regresije

Razgovarajmo o gornjoj usporedbi između linearne regresije i logističke regresije

Linearna regresija

Logistička regresija

Koristi se za rješavanje regresijskih problemaKoristi se za rješavanje problema s klasifikacijom
Modelira odnos između ovisne varijable i jedne ili više nezavisnih varijabliPredviđa vjerojatnost ishoda koja na izlazu može imati samo dvije vrijednosti bilo 0 ili 1
Predviđeni izlaz je kontinuirana varijablaPredviđeni izlaz je diskretna varijabla
Predviđeni izlaz Y može prelaziti 0 i 1 rasponPredviđeni izlaz Y leži unutar 0 i 1 raspona
Predviđeni izlaz Y može prelaziti 0 i 1 rasponPredviđeni izlaz

Zaključak

Ako značajke ne doprinose predviđanju ili su u velikoj međusobnoj korelaciji, to modelu dodaje buku. Dakle, značajke koje ne doprinose dovoljno modelu moraju biti uklonjene. Ako su neovisne varijable visoko povezane, to može uzrokovati problem multikolinearnosti, što se može riješiti pokretanjem zasebnih modela sa svakom neovisnom varijablom.

Preporučeni članci

Ovo je vodič za Linearnu regresiju i logističku regresiju. Ovdje smo razmotrili ključne razlike linearne regresije i logističke regresije s infografikom i tablicom usporedbe. Možete također pogledati sljedeće članke da biste saznali više -

  1. Znanost podataka vs vizualizacija podataka
  2. Strojno učenje i neuronska mreža
  3. Nadzirano učenje vs Duboko učenje
  4. Logistička regresija u R