Pregled modeliranja linearne regresije

Kada počnete učiti o algoritmima strojnog učenja, započinjete s učenjem različitih načina algoritama za ML, tj. Nadgledanim, nenadziranim, polunadzoranim i pojačanim učenjima. U ovom ćemo se članku baviti nadziranim učenjem i jednim od osnovnih, ali moćnih algoritama: Linearna regresija.

Dakle, nadzirano učenje je učenje u kojem osposobljavamo stroj da razumije odnos ulaznih i izlaznih vrijednosti danih u skupu podataka o treningu, a zatim isti model koristimo za predviđanje izlaznih vrijednosti za testni skup podataka. Dakle, u osnovi, ako imamo izlaz ili označavanje koji su već sadržani u našem skupu podataka o treningu i sigurni smo da pruženi izlaz ima smisla koji odgovara unosu, tada koristimo Nadzirano učenje. Nadzirani algoritmi učenja razvrstavaju se u regresiju i klasifikaciju.

Regresijski algoritmi koriste se kada primijetite da je izlaz kontinuirana varijabla, dok se algoritmi klasifikacije koriste kada je izlaz podijeljen u odjeljke kao što su Pass / Fail, Good / Average / Bad, itd. Imamo različite algoritme za izvođenje regresije ili klasifikacije radnje s algoritmom linearne regresije kao osnovnim algoritmom u regresiji.

Dolazeći do ove regresije, prije nego što se upustim u algoritam, dopustite mi da vam postavim osnovu. U školovanju se nadam da se sjećate koncepta jednadžbe linija. Dopustite mi da ukratko kažem o tome. Dane su vam dvije točke na ravnini XY, tj. Recimo (x1, y1) i (x2, y2), gdje je y1 izlaz x1, a y2 je izlaz x2, tada je jednadžba linija koja prolazi kroz točke (y- y1) = m (x-x1) gdje je m nagib pravca. Ako nađete jednadžbu retka, ako vam je dano točka reći (x3, y3), lako biste mogli predvidjeti je li točka leži na liniji ili udaljenost točke od pravca. To je bila osnovna regresija koju sam učinio u školovanju, a da uopće nisam shvatio da će to imati tako veliku važnost u strojnom učenju. Ono što općenito radimo u tome je pokušati identificirati jednadžbu ili krivulju jednadžbe koja bi mogla pravilno uklopiti ulaz i izlaz skupa podataka vlaka, a zatim upotrijebite istu jednadžbu za predviđanje izlazne vrijednosti testnog skupa podataka. To bi rezultiralo kontinuiranom željenom vrijednošću.

Definicija linearne regresije

Linearna regresija postoji zapravo vrlo dugo (oko 200 godina). To je linearni model, tj. Pretpostavlja linearni odnos između ulaznih varijabli (x) i jedne izlazne varijable (y). Y ovdje se izračunava linearnom kombinacijom ulaznih varijabli.

Imamo dvije vrste linearne regresije

Jednostavna linearna regresija

Kada postoji jedna ulazna varijabla, tj. Jednadžba retka je c

smatra se y = mx + c, tada je to jednostavna linearna regresija.

Višestruka linearna regresija

Ako postoji više ulaznih varijabli, tj. Jednadžba retka smatra se y = ax 1 + bx 2 +… nx n, tada je to višestruka linearna regresija. Za pripremu ili osposobljavanje regresijske jednadžbe iz podataka se koriste različite tehnike, a najčešća se naziva uobičajenim najmanjim kvadratima. Model izgrađen navedenom metodom naziva se redovna regresija najmanjih kvadrata ili samo regresija najmanjih kvadrata. Model se koristi kada su ulazne vrijednosti i izlazne vrijednosti koje treba odrediti numeričke vrijednosti. Kada postoje samo jedan ulaz i jedan izlaz, tada je formirana jednadžba linijska jednadžba tj

y = B0x+B1

pri čemu se koeficijenti crte moraju odrediti statističkim metodama.

Modeli jednostavne linearne regresije vrlo su rijetki kod ML-a jer ćemo općenito imati razne ulazne faktore da odredimo ishod. Kada postoje više ulaznih vrijednosti i jedna izlazna vrijednost, tada se formira jednadžba ravnine ili hiper-ravnine.

y = ax 1 +bx 2 +…nx n

Osnovna ideja regresijskog modela je dobiti jednadžbu linija koja najbolje odgovara podacima. Najprikladnija linija je ona u kojoj je ukupna pogreška predviđanja za sve podatkovne točke smatrane što je moguće manjom. Pogreška je udaljenost između točke na ravnini i regresijske crte.

Primjer

Započnimo s primjerom Jednostavne linearne regresije.

Odnos između visine i težine osobe izravno je proporcionalan. Provedeno je istraživanje na volonterima kako bi se utvrdilo visina i idealna težina osobe, te su zabilježene vrijednosti. To će se smatrati našim setom podataka o treningu. Korištenjem podataka o treningu izračunava se jednadžba regresijske linije koja će dati minimalnu pogrešku. Ta se linearna jednadžba koristi za izradu predviđanja novih podataka. To jest, ako damo visinu osobe, tada odgovarajuću težinu treba predvidjeti model koji smo razvili s minimalnom ili nultu greškom.

Y(pred) = b0 + b1*x

Vrijednosti b0 i b1 moraju biti odabrane tako da minimiziraju pogrešku. Ako se za ocjenu modela uzme zbroj kvadratne pogreške, dobivamo liniju koja najbolje smanjuje pogrešku.

Otklanjamo grešku kako se pozitivne i negativne vrijednosti ne bi otkazale jedna drugoj. Za model s jednim predviđačem:

Izračun presretanja (b0) u jednadžbi retka vrši se prema:

Izračunavanje koeficijenta za ulaznu vrijednost x vrši se prema:

Razumijevanje koeficijenta b 1 :

  • Ako je b 1 > 0, tada su x (ulaz) i y (izlaz) izravno proporcionalni. To je povećanje x će se povećati y kao što je povećanje visine, povećava se težina.
  • Ako je b 1 <0, tada su x (prediktor) i y (cilj) obrnuto proporcionalni. To je povećanje x će se smanjiti y kao što je brzina vozila povećava se, vrijeme se smanjuje.

Razumijevanje koeficijenta b 0 :

  • B 0 zauzima preostalu vrijednost za model i osigurava da predviđanje nije pristrano. Ako nemamo B 0 pojam, jednadžba retka (y = B 1 x) je prisiljena proći kroz podrijetlo, tj. Vrijednosti ulaza i izlaza stavljene u model rezultiraju s 0. Ali to nikada neće biti slučaj, ako imamo 0 u ulazu, tada će B 0 biti prosjek svih predviđenih vrijednosti kada je x = 0. Postavljanje svih vrijednosti predviđanja na 0 u slučaju x = 0 rezultirat će gubitkom podataka i često je nemoguće.

Osim gore spomenutih koeficijenata, ovaj se model može izračunati i pomoću normalnih jednadžbi. Dalje ću raspravljati o upotrebi normalnih jednadžbi i oblikovanju jednostavnog / višelinearnog regresijskog modela u svom narednom članku.

Preporučeni članci

Ovo je vodič za linearno regresijsko modeliranje. Ovdje smo raspravljali o definiciji, vrstama linearne regresije koja uključuje jednostavnu i višestruku linearnu regresiju zajedno s nekim primjerima. Možete pogledati i sljedeće članke da biste saznali više -

  1. Linearna regresija u R
  2. Linearna regresija u Excelu
  3. Prediktivno modeliranje
  4. Kako stvoriti GLM u R?
  5. Usporedba linearne regresije i logističke regresije

Kategorija: