Analiza linearne regresije - 3Vrste i model - Grafički prikaz

Uvod u analizu linearne regresije

Često je zbunjujuće naučiti neki koncept koji je čak dio našeg svakodnevnog života. No to nije problem, možemo si pomoći i razviti se da naučimo iz svojih svakodnevnih aktivnosti samo analizom stvari i ne bojimo se postavljati pitanja. Zašto cijena utječe na potražnju robe, zašto promjena kamatnih stopa utječe na novčanu ponudu. Na sve se to može odgovoriti jednostavnim pristupom poznatim kao linearna regresija. Jedina složenost koja se osjeća dok se bavi linearnom regresijskom analizom je prepoznavanje ovisnih i neovisnih varijabli.

Moramo pronaći što utječe na to, a polovica problema je riješena. Moramo vidjeti je li cijena ili potražnja koja utječe na ponašanje jednih drugih. Nakon što smo saznali koja je nezavisna i ovisna varijabla, dobro je krenuti u našu analizu. Dostupno je više vrsta regresijske analize. Ova analiza ovisi o dostupnim varijablama.

3 vrste regresijske analize

Ove tri regresijske analize imaju maksimalne slučajeve uporabe u stvarnom svijetu, a inače postoji više od 15 vrsta regresijske analize. Vrste regresijske analize o kojima ćemo razgovarati su:

Analiza linearne regresije
Analiza višestruke linearne regresije
Logistička regresija

U ovom ćemo se članku usredotočiti na analizu jednostavne linearne regresije. Ova analiza pomaže nam utvrditi odnos između neovisnog i ovisnog faktora. Jednostavnijim riječima, regresijski model nam pomaže otkriti kako promjene u neovisnom faktoru utječu na ovisni faktor. Ovaj model nam pomaže na više načina kao što su:

To je jednostavan i moćan statistički model
To će nam pomoći u predviđanju i prognoziranju
Pomoći će nam donijeti bolju poslovnu odluku
Pomoći će nam u analiziranju rezultata i ispravljanju pogrešaka

Jednadžba linearne regresije i podijeli je na relevantne dijelove

Y = β1 + β2X + ϵ

Gdje je β1 u matematičkoj terminologiji poznat kao presretanje i β2 u matematičkoj terminologiji poznat kao nagib. Poznati su i kao regresijski koeficijenti. ϵ je pojam pogreške, dio Y regresijskog modela nije u stanju objasniti.
Y je ovisna varijabla (drugi izrazi koji se naizmjenično koriste za ovisne varijable su varijabla odgovora, regres i mjerena varijabla, promatrana varijabla, odgovorna varijabla, objasnjena varijabla, varijabla ishoda, eksperimentalna varijabla i / ili izlazna varijabla).
X je neovisna varijabla (regresori, kontrolirana varijabla, manipulirana varijabla, objasnjavajuća varijabla, varijabla izloženosti i / ili ulazna varijabla).

Problem: Za razumijevanje što je linearna regresijska analiza, uzimamo skup podataka "Automobili" koji u R direktorima dolazi prema zadanim postavkama. U ovom skupu podataka nalazi se 50 promatranja (u osnovi redaka) i 2 varijable (stupci). Nazivi stupaca su "Dist" i "Speed". Ovdje moramo vidjeti utjecaj na varijable udaljenosti zbog varijabli brzine promjene. Da bismo vidjeli strukturu podataka možemo pokrenuti kod Str (skup podataka). Ovaj nam kôd pomaže da razumijemo strukturu skupa podataka. Ove nam funkcionalnosti pomažu u donošenju boljih odluka jer imamo bolju sliku o strukturi podataka. Ovaj nam kôd pomaže da identificiramo vrstu skupova podataka.

Kodirati:

Slično za provjeru statističkih kontrolnih točaka skupa podataka možemo upotrijebiti kôd Sažetak (automobili). Ovaj kôd pruža prosječni, srednji raspon skupa podataka u pokretu, koji istraživač može koristiti dok se bavi problemom.

Izlaz:

Ovdje možemo vidjeti statistički izlaz svake varijable koju imamo u našem skupu podataka.

Grafički prikaz skupova podataka

Vrste grafičkog prikaza koje će ovdje biti pokrivene su i zašto:

Rascjepni grafikon: Pomoću grafikona možemo vidjeti u kojem smjeru ide naš model linearne regresije, postoje li snažni dokazi koji dokazuju naš model ili ne.
Box Plot: Pomaže nam u pronalaženju outliersa.
Crtanje gustoće: Pomozite nam da razumemo distribuciju nezavisne varijable, u našem slučaju, nezavisna varijabla je "Brzina".

Prednosti grafičkog prikaza

Ovdje su sljedeće prednosti:

Lako za razumjeti
Pomaže nam u brzoj odluci
Uporedna analiza
Manje napora i vremena

1. Rješavanje parcele: To će vam pomoći u vizualizaciji bilo kakvih odnosa između neovisne varijable i ovisne varijable.

Kodirati:

Izlaz:

Iz grafikona možemo vidjeti linearno rastući odnos između ovisne varijable (Udaljenost) i neovisne varijable (Brzina).

2. Box Plot: Box plot nam pomaže da identificiramo izdanke u skupovima podataka. Prednosti upotrebe kutijice su:

Grafički prikaz lokacije i širine varijabli.
Pomaže nam da razumijemo skočnost podataka i simetriju podataka.

Kodirati:

Izlaz:

3. Nacrt gustoće (za provjeru normalnosti distribucije)

Kodirati:

Izlaz:

Korelacijska analiza

Ova analiza pomaže nam pronaći odnos između varijabli. Postoji uglavnom šest vrsta korelacijske analize.

Pozitivna korelacija (0, 01 do 0, 99)
Negativna korelacija (-0, 99 do -0, 01)
Nema korelacije
Savršena korelacija
Jaka korelacija (vrijednost bliža ± 0, 99)
Slaba korelacija (vrijednost bliža 0)

Skica rasipanja pomaže nam identificirati koje vrste skupova podataka korelacije imaju među njima i kod za pronalaženje korelacije

Izlaz:

Ovdje imamo snažnu pozitivnu povezanost između brzine i udaljenosti, što znači da imaju izravan odnos među njima.

Model linearne regresije

To je temeljna komponenta analize, ranije smo samo pokušavali i testirali je li skup podataka koji smo raspoloživi dovoljno logičan da pokrenemo takvu analizu ili ne. Funkcija koju planiramo koristiti je lm (). Ova funkcija sadrži dva elementa koji su formula i podaci. Prije nego što dodijelimo koja varijabla je ovisna ili neovisna, moramo biti sigurni u to, jer o tome ovisi cijela naša formula.

Formula izgleda ovako,

Linearna regresija <- lm (ovisna varijabla ~ neovisna varijabla, podaci = datum.okvir)

Kodirati:

Izlaz:

Kao što se iz gornjeg segmenta članka možemo prisjetiti, jednadžba linearne regresije je:

Y = β1 + β2X + ϵ

Sad ćemo se uklopiti u informacije koje smo dobili iz gornjeg koda u ovoj jednadžbi.

dist = −17.579 + 3.932 ∗ brzina

Samo pronalaženje jednadžbe linearne regresije nije dovoljno, moramo provjeriti i njenu statističku značajnost. Za to moramo prenijeti kod „Sažetak“ na našem modelu linearne regresije.

Kodirati:

Izlaz:

Postoji više načina provjere statističkog značaja modela, ovdje se koristi metoda P-vrijednosti. Model možemo statistički smatrati prikladnim kada je P vrijednost manja od unaprijed određene statistički značajne razine, koja je idealno 0, 05. U tablici sažetka (linearna_regresija) možemo vidjeti da je P vrijednost ispod 0, 05, pa možemo zaključiti da je naš model statistički značajan. Nakon što smo sigurni u svoj model, pomoću našeg skupa podataka možemo predvidjeti stvari.

Preporučeni članci

Ovo je vodič za analizu linearne regresije. Ovdje smo raspravljali o tri vrste linearne regresijske analize, grafički prikaz skupova podataka s prednostima i modelima linearne regresije. Možete i proći kroz naše druge povezane članke da biste saznali više -

Regresijska formula
Regresijsko ispitivanje
Linearna regresija u R
Vrste tehnika analize podataka
Što je regresijska analiza?
Glavne razlike regresije i klasifikacije
Top 6 razlike linearne regresije i logističke regresije

Analiza linearne regresije - 3Vrste i model - Grafički prikaz

Sadržaj:

Uvod u analizu linearne regresije

3 vrste regresijske analize

Jednadžba linearne regresije i podijeli je na relevantne dijelove

Grafički prikaz skupova podataka

Prednosti grafičkog prikaza

Korelacijska analiza

Model linearne regresije

Preporučeni članci

Prvih 10 pitanja i odgovora za JDBC intervju (Ažurirano za 2019. godinu)

JEditorPane - Konstruktori i metode s primjerom u JEditorPane

JDBC vs ODBC - Znajte u prvih 8 korisnih razlika

JDialog na Javi - Upotrebe i sintaksa - Konstrukcije i primjer Java JDialog

JDBC Arhitektura - Sučelja - Vrste upravljačkih programa i njegove komponente

Adobe Photoshop Software - Saznajte o korištenju softvera Adobe Photoshop

Adobe Lightroom Besplatno - Osnovni pojmovi upotrebe Adobe Lightroom

Prečice za Adobe Photoshop - Gornje tipke prečaci na tipkovnici za PC

Adobe Illustrator za početnike - Softver, obuka, udžbenik

Dodavanje ključnih okvira u After Effects - Korištenje animacije maski za ključne riječi

Veliki podaci u odnosu na znanost podataka - u čemu se razlikuju?

Veliki podaci u odnosu na skladište podataka - saznajte najbolje razlike

Saznajte 6 korisnih razlika između Big Data Vs Predictive Analytics

Tehnike velikih podataka - Sukob tehnologije i poslovne analitike

Veliki podaci vs Apache Hadoop - 4 najbolje usporedbe koje morate naučiti