Uvod u K-znači klaster algoritam?
K- Znači klasteriranje pripada algoritmu nenadziranog učenja. Koristi se kada podaci nisu definirani u skupinama ili kategorijama, tj. Neobilježeni podaci. Cilj ovog algoritma grupiranja je pretraživanje i pronalazak grupa u podacima, gdje varijabla K predstavlja broj skupina.
Razumijevanje K- znači algoritam klasteriranja
Ovaj je algoritam iterativni algoritam koji particiju skupa podataka prema njihovim značajkama dijeli na K broj unaprijed definiranih ne preklapajućih različitih skupina ili podskupina. To čini podatkovne točke među klasterima što je moguće sličnijim, a pokušava pokušati održati klastere što je više moguće. Datoteke podataka raspoređuju u klaster ako je zbroj udaljenosti kvadrata između središta klastera i podatkovnih točaka minimalno tamo gdje je srednji klaster središta aritmetike središta podataka u klasteru. Manja varijacija klastera rezultira sličnim ili homogenim podatkovnim točkama unutar klastera.
Kako funkcionira algoritam klasteriranja K-znači?
K-znači klasteriranje algoritam treba sljedeće unose:
- K = broj podskupina ili skupina
- Uzorak ili set za trening = (x 1, x 2, x 3, ……… x n )
Pretpostavimo da imamo skup podataka koji nije obilježen i trebamo ih podijeliti u klastere.
Sada moramo pronaći broj klastera. To se može učiniti na dvije metode:
- Metoda lakta.
- Metoda namjene.
Raspravimo o njima ukratko:
Metoda lakta
U ovoj se metodi crta krivulja između "unutar zbroja kvadrata" (WSS) i broja klastera. Zakrivljena krivulja nalikuje ljudskoj ruci. Zove se metoda lakta jer nam točka lakta u krivini pruža optimalan broj nakupina. Na grafikonu ili krivulji, nakon točke lakta, vrijednost WSS se mijenja vrlo sporo, pa se točka lakta mora uzeti u obzir da bi dala konačnu vrijednost broja grozdova.
Namjena-Based
U ovoj se metodi podaci dijele na temelju različitih mjernih podataka i nakon toga se procjenjuje koliko je dobro izvedeno u tom slučaju. Na primjer, raspored košulja u odjelu za mušku odjeću u tržnom centru odvija se prema kriterijima veličina. To se može učiniti na temelju cijene i marki također. Odabrao bi se najprikladniji koji bi dao optimalan broj grozdova tj. Vrijednost K.
Sada se vratimo na gore navedeni podatak. Možemo izračunati broj klastera tj. Vrijednost K pomoću bilo koje od gore navedenih metoda.
Kako koristiti gore navedene metode?
Sada pogledajmo postupak izvršenja:
Korak 1: Inicijalizacija
Prvo, inicijalizirajte bilo koje slučajne točke nazvane centroidi klastera. Tijekom inicijalizacije morate voditi računa da centroidi klastera moraju biti manji od broja bodova podataka o treningu. Ovaj je algoritam iterativni algoritam, pa se sljedeća dva koraka ponavljaju iterativno.
Korak 2: Dodjela klastera
Nakon inicijalizacije, prelaze se sve podatkovne točke i izračunava se udaljenost između svih centroida i podatkovnih točaka. Sada bi se grozdovi formirali ovisno o minimalnoj udaljenosti od centroida. U ovom su primjeru podaci podijeljeni u dva klastera.
Korak 3: Premještanje Centroida
Kako klasteri formirani u gornjem koraku nisu optimizirani, tako moramo i formirati optimizirane klastere. Za to moramo centroide iterativno premjestiti na novo mjesto. Uzmite podatkovne točke jednog klastera, izračunajte njihov prosjek, a zatim pomaknite centroid tog grozda na ovo novo mjesto. Ponovite isti korak za sve ostale klastere.
4. korak: optimizacija
Gornja dva koraka se rade iterativno dok se centroidi ne prestanu kretati, tj. Više ne mijenjaju svoje položaje i postaju statični. Kad se to učini, algoritam k- znači nazvan je konvergiranjem.
5. korak: konvergencija
Sada se ovaj algoritam zbližio i formiraju se različiti klasteri i jasno su vidljivi. Ovaj algoritam može dati različite rezultate ovisno o tome kako su klasteri inicijalizirani u prvom koraku.
Primjene algoritma klasteriranja klastera
- Segmentacija tržišta
- Grupiranje dokumenata
- Segmentacija slike
- Kompresija slike
- Kvantizacija vektora
- Analiza klastera
- Sadržaj učenja ili učenja rječnika
- Identificiranje podruja podložnih kriminalu
- Otkrivanje prijevara u osiguranju
- Analiza podataka javnog prijevoza
- Grupiranje IT imovine
- Segmentacija korisnika
- Prepoznavanje podataka o raku
- Koristi se u tražilicama
- Predviđanje aktivnosti lijekova
Prednosti Algoritma klastera klastera
- Brzo je
- Robustan
- Lako za razumjeti
- Usporedno učinkovit
- Ako su skupovi podataka različiti, tada se daju najbolji rezultati
- Stvarajte čvršće grozdove
- Kada se izračunaju centroidi, promjene klastera se mijenjaju.
- Fleksibilno
- Lako za tumačenje
- Bolji računski troškovi
- Povećava preciznost
- Radi bolje sa sfernim nakupinama
Nedostaci K-značenja algoritma klasteriranja
- Potrebno je prethodno specificirati broj centara klastera
- Ako postoje dva visoko preklapajuća podatka, onda ih se ne može razlikovati i ne može reći da postoje dva klastera
- Uz različitu zastupljenost podataka, postignuti rezultati također su različiti
- Euklidska udaljenost može nejednako ponderirati faktore
- Daje lokalnu optimalnost funkcije pogreške u obliku kvadrata
- Ponekad odabir centroida nasumično ne može dati plodne rezultate
- Može se koristiti samo ako je značenje definirano
- Ne mogu se nositi s potrošenim i bučnim podacima
- Ne radite za nelinearni skup podataka
- Nedostaje dosljednost
- Osjetljiv na skali
- Ako se nađu vrlo veliki skupovi podataka, tada se računalo može srušiti.
- Pitanja predviđanja
Preporučeni članci
Ovo je vodič za algoritam klastera K-znači. Ovdje smo raspravljali o radu, primjenama, prednostima i nedostacima algoritma klastera K-Means. Možete i proći naše druge predložene članke da biste saznali više -
- Što su neuronske mreže?
- Što je istraživanje podataka? | Uloga data datainga
- Pitanje za intervjuiranje podataka
- Strojno učenje i neuronska mreža
- Klasteriranje u strojnom učenju