Uvod u analizu linearne regresije

Često je zbunjujuće naučiti neki koncept koji je čak dio našeg svakodnevnog života. No to nije problem, možemo si pomoći i razviti se da naučimo iz svojih svakodnevnih aktivnosti samo analizom stvari i ne bojimo se postavljati pitanja. Zašto cijena utječe na potražnju robe, zašto promjena kamatnih stopa utječe na novčanu ponudu. Na sve se to može odgovoriti jednostavnim pristupom poznatim kao linearna regresija. Jedina složenost koja se osjeća dok se bavi linearnom regresijskom analizom je prepoznavanje ovisnih i neovisnih varijabli.

Moramo pronaći što utječe na to, a polovica problema je riješena. Moramo vidjeti je li cijena ili potražnja koja utječe na ponašanje jednih drugih. Nakon što smo saznali koja je nezavisna i ovisna varijabla, dobro je krenuti u našu analizu. Dostupno je više vrsta regresijske analize. Ova analiza ovisi o dostupnim varijablama.

3 vrste regresijske analize

Ove tri regresijske analize imaju maksimalne slučajeve uporabe u stvarnom svijetu, a inače postoji više od 15 vrsta regresijske analize. Vrste regresijske analize o kojima ćemo razgovarati su:

  1. Analiza linearne regresije
  2. Analiza višestruke linearne regresije
  3. Logistička regresija

U ovom ćemo se članku usredotočiti na analizu jednostavne linearne regresije. Ova analiza pomaže nam utvrditi odnos između neovisnog i ovisnog faktora. Jednostavnijim riječima, regresijski model nam pomaže otkriti kako promjene u neovisnom faktoru utječu na ovisni faktor. Ovaj model nam pomaže na više načina kao što su:

  • To je jednostavan i moćan statistički model
  • To će nam pomoći u predviđanju i prognoziranju
  • Pomoći će nam donijeti bolju poslovnu odluku
  • Pomoći će nam u analiziranju rezultata i ispravljanju pogrešaka

Jednadžba linearne regresije i podijeli je na relevantne dijelove

Y = β1 + β2X + ϵ

  • Gdje je β1 u matematičkoj terminologiji poznat kao presretanje i β2 u matematičkoj terminologiji poznat kao nagib. Poznati su i kao regresijski koeficijenti. ϵ je pojam pogreške, dio Y regresijskog modela nije u stanju objasniti.
  • Y je ovisna varijabla (drugi izrazi koji se naizmjenično koriste za ovisne varijable su varijabla odgovora, regres i mjerena varijabla, promatrana varijabla, odgovorna varijabla, objasnjena varijabla, varijabla ishoda, eksperimentalna varijabla i / ili izlazna varijabla).
  • X je neovisna varijabla (regresori, kontrolirana varijabla, manipulirana varijabla, objasnjavajuća varijabla, varijabla izloženosti i / ili ulazna varijabla).

Problem: Za razumijevanje što je linearna regresijska analiza, uzimamo skup podataka "Automobili" koji u R direktorima dolazi prema zadanim postavkama. U ovom skupu podataka nalazi se 50 promatranja (u osnovi redaka) i 2 varijable (stupci). Nazivi stupaca su "Dist" i "Speed". Ovdje moramo vidjeti utjecaj na varijable udaljenosti zbog varijabli brzine promjene. Da bismo vidjeli strukturu podataka možemo pokrenuti kod Str (skup podataka). Ovaj nam kôd pomaže da razumijemo strukturu skupa podataka. Ove nam funkcionalnosti pomažu u donošenju boljih odluka jer imamo bolju sliku o strukturi podataka. Ovaj nam kôd pomaže da identificiramo vrstu skupova podataka.

Kodirati:

Slično za provjeru statističkih kontrolnih točaka skupa podataka možemo upotrijebiti kôd Sažetak (automobili). Ovaj kôd pruža prosječni, srednji raspon skupa podataka u pokretu, koji istraživač može koristiti dok se bavi problemom.

Izlaz:

Ovdje možemo vidjeti statistički izlaz svake varijable koju imamo u našem skupu podataka.

Grafički prikaz skupova podataka

Vrste grafičkog prikaza koje će ovdje biti pokrivene su i zašto:

  • Rascjepni grafikon: Pomoću grafikona možemo vidjeti u kojem smjeru ide naš model linearne regresije, postoje li snažni dokazi koji dokazuju naš model ili ne.
  • Box Plot: Pomaže nam u pronalaženju outliersa.
  • Crtanje gustoće: Pomozite nam da razumemo distribuciju nezavisne varijable, u našem slučaju, nezavisna varijabla je "Brzina".

Prednosti grafičkog prikaza

Ovdje su sljedeće prednosti:

  • Lako za razumjeti
  • Pomaže nam u brzoj odluci
  • Uporedna analiza
  • Manje napora i vremena

1. Rješavanje parcele: To će vam pomoći u vizualizaciji bilo kakvih odnosa između neovisne varijable i ovisne varijable.

Kodirati:

Izlaz:

Iz grafikona možemo vidjeti linearno rastući odnos između ovisne varijable (Udaljenost) i neovisne varijable (Brzina).

2. Box Plot: Box plot nam pomaže da identificiramo izdanke u skupovima podataka. Prednosti upotrebe kutijice su:

  • Grafički prikaz lokacije i širine varijabli.
  • Pomaže nam da razumijemo skočnost podataka i simetriju podataka.

Kodirati:

Izlaz:

3. Nacrt gustoće (za provjeru normalnosti distribucije)

Kodirati:

Izlaz:

Korelacijska analiza

Ova analiza pomaže nam pronaći odnos između varijabli. Postoji uglavnom šest vrsta korelacijske analize.

  1. Pozitivna korelacija (0, 01 do 0, 99)
  2. Negativna korelacija (-0, 99 do -0, 01)
  3. Nema korelacije
  4. Savršena korelacija
  5. Jaka korelacija (vrijednost bliža ± 0, 99)
  6. Slaba korelacija (vrijednost bliža 0)

Skica rasipanja pomaže nam identificirati koje vrste skupova podataka korelacije imaju među njima i kod za pronalaženje korelacije

Izlaz:

Ovdje imamo snažnu pozitivnu povezanost između brzine i udaljenosti, što znači da imaju izravan odnos među njima.

Model linearne regresije

To je temeljna komponenta analize, ranije smo samo pokušavali i testirali je li skup podataka koji smo raspoloživi dovoljno logičan da pokrenemo takvu analizu ili ne. Funkcija koju planiramo koristiti je lm (). Ova funkcija sadrži dva elementa koji su formula i podaci. Prije nego što dodijelimo koja varijabla je ovisna ili neovisna, moramo biti sigurni u to, jer o tome ovisi cijela naša formula.

Formula izgleda ovako,

Linearna regresija <- lm (ovisna varijabla ~ neovisna varijabla, podaci = datum.okvir)

Kodirati:

Izlaz:

Kao što se iz gornjeg segmenta članka možemo prisjetiti, jednadžba linearne regresije je:

Y = β1 + β2X + ϵ

Sad ćemo se uklopiti u informacije koje smo dobili iz gornjeg koda u ovoj jednadžbi.

dist = −17.579 + 3.932 ∗ brzina

Samo pronalaženje jednadžbe linearne regresije nije dovoljno, moramo provjeriti i njenu statističku značajnost. Za to moramo prenijeti kod „Sažetak“ na našem modelu linearne regresije.

Kodirati:

Izlaz:

Postoji više načina provjere statističkog značaja modela, ovdje se koristi metoda P-vrijednosti. Model možemo statistički smatrati prikladnim kada je P vrijednost manja od unaprijed određene statistički značajne razine, koja je idealno 0, 05. U tablici sažetka (linearna_regresija) možemo vidjeti da je P vrijednost ispod 0, 05, pa možemo zaključiti da je naš model statistički značajan. Nakon što smo sigurni u svoj model, pomoću našeg skupa podataka možemo predvidjeti stvari.

Preporučeni članci

Ovo je vodič za analizu linearne regresije. Ovdje smo raspravljali o tri vrste linearne regresijske analize, grafički prikaz skupova podataka s prednostima i modelima linearne regresije. Možete i proći kroz naše druge povezane članke da biste saznali više -

  1. Regresijska formula
  2. Regresijsko ispitivanje
  3. Linearna regresija u R
  4. Vrste tehnika analize podataka
  5. Što je regresijska analiza?
  6. Glavne razlike regresije i klasifikacije
  7. Top 6 razlike linearne regresije i logističke regresije

Kategorija: