Uvod u KNN algoritam u R

U algoritmu KNN u R, KNN znači K algoritmu najbližeg susjeda, a R je programski jezik. Kaže se da je to najjednostavniji algoritam strojnog učenja. KNN je nadzirani algoritam koji podatkovne točke klasificira u ciljni razred uspoređujući značajke s najbližim susjedom.

Primjer: Pretpostavimo da želite klasificirati zaslon osjetljiv na dodir i telefon s tipkovnicom. Različiti su čimbenici koji sudjeluju u razlikovanju oba telefona. Međutim, faktor koji razlikuje oba telefona je tipkovnica. Dakle, kad primimo podatkovnu točku (tj. Telefon). Usporedimo ga sa sličnim značajkama susjednih podatkovnih točaka da bismo ga klasificirali kao tipkovnicu ili telefon sa dodirom.

Značajke KNN algoritma

Ovdje ćemo proučavati značajke algoritma KNN:

  • KNN algoritam koristi ulazne podatke za predviđanje izlaznih podataka.
  • Algoritam se može primijeniti na različite skupove problema.
  • Usredotočuje se na sličnosti značajki da bi se podaci klasificirali.
  • KNN algoritam obrađuje realne podatke i ne daje nikakve pretpostavke o podatkovnim točkama.
  • KNN pamti skup podataka o treningu umjesto da bude intuitivan. Također, može se reći da ima lijen pristup.
  • Može riješiti probleme s klasifikacijom i regresijom.

Rješavanje problema u algoritmu KNN u R

Nakon rješavanja problema:

1. Problem s klasifikacijom

U problemu s klasifikacijom vrijednosti su diskretne baš kao da li želite jesti pizzu s preljevima ili bez. Postoji zajednička osnova. KNN algoritam pomaže u rješavanju takvog problema.

2. Regresijski problem

Problem regresije dolazi u sliku kada imamo ovisnu varijablu i neovisnu varijablu. Na primjer: indeks BMI. Svaki redak obično sadrži promatranje ili točku podataka i primjer.

Algoritam KNN u R

Pogledajmo korake u algoritmu koji treba slijediti:

Korak 1: Učitajte ulazne podatke.

2. korak: inicijalizirajte K s brojem najbližih susjeda.

Korak 3: Izračunavanje podataka (tj. Udaljenost između struje i najbližeg susjeda)

Korak 4: Dodavanje udaljenosti trenutnom uređenom skupu podataka.

5. korak: branje K unosa i označavanje istih.

Korak 6: Vratite srednju vrijednost za regresijski problem.

Korak 7: Vratite vrijednost načina za probleme s klasifikacijom.

Točke za pamćenje tijekom primjene KNN algoritma

  • Trebali bismo biti sigurni da je K vrijednost veća od jedne, ona ometa predviđanje da bude točna.
  • Što je K vrijednost veća, točnost predviđanja može biti zbog većine.
  • Poželjno je imati K kao neparan broj. Inače može dovesti do prekida kravate.

KNN Pseudocode

U donjoj formuli predstavlja varijable i predstavlja podatkovne točke u kojima je (i = 1, 2, 3….)

Set(, )

Koristite slučajeve

Slijede slučajevi upotrebe u KNN algoritmu u R:

1. Usporedba proizvoda i pomoć u preporukama za kupovinu

Kada kupujemo prijenosno računalo ili računalo s internetske stranice za e-trgovinu, vidimo i preporuke za kupovinu, poput kupovine antivirusnog softvera ili zvučnika. Sve je to zbog toga što kada prethodni kupac kupi laptop, on se uglavnom kupuje zajedno sa antivirusnim programima ili zvučnicima. Strojno učenje pomaže u preporukama za e-trgovinu.

2. Preporuke o hrani

Strojno učenje također pomaže u preporukama na temelju prethodno naručene hrane i u skladu s tim sugeriraju restorane.

Primjer algoritma KNN

Slijede primjeri KNN algoritma:

1. Uvoz podataka

Uzmimo podatke o lutkama o nama kako predviđamo veličinu majice momka uz pomoć visine i težine.

Visina (cm) Težina (kg) Veličina
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Pronalaženje sličnosti izračunavanjem udaljenosti

Možemo koristiti i manhattansku i euklidsku udaljenost jer su podaci kontinuirani. Izračunavamo udaljenost između novog uzorka i skupa podataka o treningu, a zatim pronalazimo K-najbliže.

Primjer: Recimo da Raj ima visinu od 165 cm i težak 63 kilograma. Izračunavamo euklidsku udaljenost koristeći prvo promatranje s novim uzorkom: SQRT ((165-140) 2 + (63-58) 2)

3. Pronalaženje K-najbližih susjeda

Pretpostavimo da je K = 4, postoje 4 kupca kod kojih su 3 osobe bila srednje veličine, a 1 velika. Najbolja predviđanja su odijela srednje veličine za Raja.

Razlika između KNN i K-srednje vrijednosti

Slijede razlike:

  • KNN je nadzirani algoritam (ovisna varijabla), dok je K-srednja vrijednost neodržavani algoritam (bez ovisne varijable).
  • K-srednja vrijednost koristi klasteriranje za dijeljenje podatkovnih točaka formirajući K-klastere.KNN koristi K-najbliže susjede za razvrstavanje podataka i kombinira ih.

Prednosti i nedostaci KNN

Evo sljedećih prednosti:

  • KNN algoritam je svestran, može se koristiti za klasifikaciju i regresijske probleme.
  • Nema potrebe za prethodnim modelom za izradu KNN algoritma.
  • Jednostavan i lagan za implementaciju.

Evo nedostataka:

  • Algoritam s povećanjem broja uzoraka (tj. Nema varijabli)

Preporučeni članci

Ovo je vodič za KNN algoritam u R. Ovdje smo raspravljali o značajkama, primjerima, pseudokodu, koracima koje treba slijediti u KNN algoritmu. Možete i proći kroz naše druge povezane članke da biste saznali više -

  1. Algoritmi znanosti podataka
  2. Što je genetski algoritam?
  3. Algoritmi usmjeravanja
  4. Algoritmi neuronske mreže
  5. C ++ algoritam | Primjeri C ++ algoritma

Kategorija: