Regresija vs klasifikacija - Glavne ključne razlike i usporedba

Razlika između regresije i klasifikacije

U ovom ćemo članku Regresija vs klasifikacija razmotriti ključne razlike između regresije i klasifikacije. Strojno učenje je široko podijeljeno na dvije vrste, a to su Nadzorano strojno učenje i Nenadzirano strojno učenje. U nadziranom strojnom učenju imamo poznatu izlaznu vrijednost u skupu podataka i na temelju njih treniramo model i koristimo ga za predviđanje, dok kod strojnog učenja bez nadzora, nemamo poznati skup izlaznih vrijednosti. Unaprijed za razliku između klasifikacije i regresije, razumjet ćemo što ova terminologija znači u strojnom učenju. Regresija je algoritam u strojnom učenju pod nadzorom koji se može obučiti za predviđanje stvarnih rezultata. Klasifikacija je algoritam u nadziranom strojnom učenju koji je osposobljen za prepoznavanje kategorija i predviđanje u koju će kategoriju pasti nove vrijednosti.

Usporedba između regresije i klasifikacije (infografika)

Ispod je top 5 usporedbe između regresije i klasifikacije :

Ključne razlike između regresije i klasifikacije

Raspravimo o nekim ključnim razlikama između regresije i klasifikacije u sljedećim točkama:

Razvrstavanje se odnosi na predviđanje oznake ili kategorije. Algoritmi za klasifikaciju razvrstavaju potreban skup podataka u jednu od dvije ili više oznaka, algoritam koji se bavi dvije klase ili kategorije poznat je kao binarni klasifikator, a ako postoji više od dvije klase, onda se može nazvati algoritmom klasifikacije više klasa.
Regresija je u pronalaženju optimalne funkcije za prepoznavanje podataka kontinuiranih stvarnih vrijednosti i predviđanje te količine. Regresija s više varijabli kao ulaza ili značajki za treniranje algoritma poznata je kao problem multivarijantne regresije. Ako su u regresijskom problemu ulazne vrijednosti ovisne ili određeni vremenom, to je poznato kao problem predviđanja vremenskih serija.
Međutim, klasifikacijski model također će predvidjeti kontinuiranu vrijednost koja je vjerojatnost da će se dogoditi događaj koji pripada toj odgovarajućoj izlaznoj klasi. Ovdje vjerojatnost događaja predstavlja vjerojatnost da će neki primjer pripadati određenoj klasi. Predviđena vrijednost vjerojatnosti može se pretvoriti u vrijednost klase odabirom oznake klase koja ima najveću vjerojatnost.
Razjasnimo to bolje gledajući primjer, pretpostavimo da treniramo model kako bismo predvidjeli da li osoba ima rak ili ne na temelju nekih značajki. Ako dobijemo vjerojatnost da će osoba oboljeti od raka kao 0.8, a nema rak kao 0.2, 0.8 verziju možemo pretvoriti u oznaku klase koja ima rak jer ona ima najveću vjerojatnost.
Kao što je gore spomenuto u klasifikaciji, da bismo vidjeli koliko je uspješan model klasifikacije, izračunavamo točnost. Pogledajmo kako se izračunava, točnost u razvrstavanju može se izvršiti uzimajući omjer točnih predviđanja i ukupnih predviđanja pomnoženih sa 100. Ako je napravljeno 50 predviđanja, a 10 ih je ispravno, a 40 je netočno, točnost će biti 20 %.

Točnost = (Broj točnih predviđanja / Ukupan broj predviđanja) * (100)

Točnost = (10/50) * (100)
Točnost = 20%

Kao što je već spomenuto u regresiji, za provjeru koliko dobro regresijski model djeluje najpopularniji način je izračunavanje srednje vrijednosti kvadratne pogreške (RMSE). Pogledajmo kako će se izračunati.

Predviđena vrijednost regresijskog modela iznosi 4, 9 dok je stvarna vrijednost 5, 3.

Predviđena vrijednost regresijskog modela iznosi 2, 3 dok je stvarna vrijednost 2, 1.

Predviđena vrijednost regresijskog modela iznosi 3, 4 dok je stvarna vrijednost 2, 9.

Korijen znači da se kvadratna pogreška može izračunati pomoću formule.

Pogreška je kvadratna (5.3-4.9) 2 = 0.16, (2.1-2.3) 2 = 0.04, (2.9-3.4) 2 = 0.25

Srednja vrijednost pogreške u kvadratu = 0, 45 / 3 = 0, 15

Srednja kvadratna greška = kvadratni korijen od 0, 15 = 0, 38

To je RMSE = 0, 38. Postoje mnoge druge metode za izračunavanje učinkovitosti modela, ali RMSE se najviše koristi jer RMSE nudi ocjenu pogreške u istim jedinicama kao i predviđena vrijednost.

Primjeri:

Većini inženjera podataka znanstvenika teško je odabrati između regresije i klasifikacije u početnoj fazi karijere. Da bismo vam olakšali da vidimo kako izgledaju problemi s klasifikacijom i kako izgledaju regresijski problemi,

Klasifikacija

Predviđajući hoće li sutra kišiti ili ne.
Predviđanje da bi osoba trebala kupiti to dobro ili ne ili zaraditi.
Predviđanje ima li osoba bolest ili ne.

Primijetite li za svaku situaciju ovdje može biti ili Da ili Ne kao vrijednost predviđena na izlazu.

Regresija

Predviđanje cijene zemljišta.
Predviđanje cijene dionica.

Ako primijetite za svaku situaciju ovdje većina njih ima numeričku vrijednost kao što je predviđeni izlaz.

Tabela usporedbe regresije i klasifikacije

Donja tablica sažima usporedbe između regresije i klasifikacije :

Parametar	Regresija	Klasifikacija
Vrsta funkcije mapiranja	U tim algoritmima će se mapirati funkcija koja će biti odabrana tipa koja može poravnati vrijednosti s kontinuiranim izlazom.	U tim algoritmima će se preslikavati funkcija mapiranja koja može uskladiti vrijednosti s unaprijed definiranim klasama.
Sadrži predviđanje	Za ovu vrstu algoritama predviđeni podaci pripadaju kategoriji kontinuiranih vrijednosti. (Kao 23, 34, 45, 67, 28)	Za ovu vrstu algoritama predviđeni podaci pripadaju kategoriji diskretnih vrijednosti. (Kao da ili ne, pripada A ili B ili C).
Način izračuna	Root Srednja kvadratna pogreška izračunavat će se za prepoznavanje najboljeg spajanja skupa podataka.	Točnost će se izračunati za utvrđivanje najboljeg spajanja skupa podataka.
Priroda predviđenih podataka	Priređena je priroda predviđenih podataka. (To jest predviđene vrijednosti će biti u nekom slijedu).	Priroda predviđenih podataka nije uređena. (To jest predviđene vrijednosti neće biti ni u jednom slijedu).
algoritmi	Podržava vektorska regresija i regresijska stabla poznata su i kao slučajna šuma, što je jedan od popularnih primjera regresijskih algoritama.	Naivni Bayes, stabla odluka i K najbliži susjedi neki su od popularnih primjera algoritama za klasifikaciju.

Zaključak

Ovo su neke od ključnih razlika između klasifikacije i regresije. U nekim se slučajevima kontinuirane izlazne vrijednosti predviđene regresijom mogu grupirati u oznake i promijeniti u klasifikacijske modele. Dakle, moramo jasno razumjeti koga odabrati na temelju situacije i onoga što želimo da predviđeni rezultati budu.

Preporučeni članci

Ovo je vodič za glavnu razliku između regresije i klasifikacije. Ovdje također raspravljamo o ključnim razlikama između regresije i klasifikacije s infografikom i tablicom usporedbe. Možete također pogledati sljedeće članke da biste saznali više -