K- znači algoritam klasteriranja - Kako to djeluje - Analiza i provedba

Uvod u K-znači klaster algoritam?

K- Znači klasteriranje pripada algoritmu nenadziranog učenja. Koristi se kada podaci nisu definirani u skupinama ili kategorijama, tj. Neobilježeni podaci. Cilj ovog algoritma grupiranja je pretraživanje i pronalazak grupa u podacima, gdje varijabla K predstavlja broj skupina.

Razumijevanje K- znači algoritam klasteriranja

Ovaj je algoritam iterativni algoritam koji particiju skupa podataka prema njihovim značajkama dijeli na K broj unaprijed definiranih ne preklapajućih različitih skupina ili podskupina. To čini podatkovne točke među klasterima što je moguće sličnijim, a pokušava pokušati održati klastere što je više moguće. Datoteke podataka raspoređuju u klaster ako je zbroj udaljenosti kvadrata između središta klastera i podatkovnih točaka minimalno tamo gdje je srednji klaster središta aritmetike središta podataka u klasteru. Manja varijacija klastera rezultira sličnim ili homogenim podatkovnim točkama unutar klastera.

Kako funkcionira algoritam klasteriranja K-znači?

K-znači klasteriranje algoritam treba sljedeće unose:

K = broj podskupina ili skupina
Uzorak ili set za trening = (x ₁, x ₂, x ₃, ……… x _n )

Pretpostavimo da imamo skup podataka koji nije obilježen i trebamo ih podijeliti u klastere.

Sada moramo pronaći broj klastera. To se može učiniti na dvije metode:

Metoda lakta.
Metoda namjene.

Raspravimo o njima ukratko:

Metoda lakta

U ovoj se metodi crta krivulja između "unutar zbroja kvadrata" (WSS) i broja klastera. Zakrivljena krivulja nalikuje ljudskoj ruci. Zove se metoda lakta jer nam točka lakta u krivini pruža optimalan broj nakupina. Na grafikonu ili krivulji, nakon točke lakta, vrijednost WSS se mijenja vrlo sporo, pa se točka lakta mora uzeti u obzir da bi dala konačnu vrijednost broja grozdova.

Namjena-Based

U ovoj se metodi podaci dijele na temelju različitih mjernih podataka i nakon toga se procjenjuje koliko je dobro izvedeno u tom slučaju. Na primjer, raspored košulja u odjelu za mušku odjeću u tržnom centru odvija se prema kriterijima veličina. To se može učiniti na temelju cijene i marki također. Odabrao bi se najprikladniji koji bi dao optimalan broj grozdova tj. Vrijednost K.

Sada se vratimo na gore navedeni podatak. Možemo izračunati broj klastera tj. Vrijednost K pomoću bilo koje od gore navedenih metoda.

Kako koristiti gore navedene metode?

Sada pogledajmo postupak izvršenja:

Korak 1: Inicijalizacija

Prvo, inicijalizirajte bilo koje slučajne točke nazvane centroidi klastera. Tijekom inicijalizacije morate voditi računa da centroidi klastera moraju biti manji od broja bodova podataka o treningu. Ovaj je algoritam iterativni algoritam, pa se sljedeća dva koraka ponavljaju iterativno.

Korak 2: Dodjela klastera

Nakon inicijalizacije, prelaze se sve podatkovne točke i izračunava se udaljenost između svih centroida i podatkovnih točaka. Sada bi se grozdovi formirali ovisno o minimalnoj udaljenosti od centroida. U ovom su primjeru podaci podijeljeni u dva klastera.

Korak 3: Premještanje Centroida

Kako klasteri formirani u gornjem koraku nisu optimizirani, tako moramo i formirati optimizirane klastere. Za to moramo centroide iterativno premjestiti na novo mjesto. Uzmite podatkovne točke jednog klastera, izračunajte njihov prosjek, a zatim pomaknite centroid tog grozda na ovo novo mjesto. Ponovite isti korak za sve ostale klastere.

4. korak: optimizacija

Gornja dva koraka se rade iterativno dok se centroidi ne prestanu kretati, tj. Više ne mijenjaju svoje položaje i postaju statični. Kad se to učini, algoritam k- znači nazvan je konvergiranjem.

5. korak: konvergencija

Sada se ovaj algoritam zbližio i formiraju se različiti klasteri i jasno su vidljivi. Ovaj algoritam može dati različite rezultate ovisno o tome kako su klasteri inicijalizirani u prvom koraku.

Primjene algoritma klasteriranja klastera

Segmentacija tržišta
Grupiranje dokumenata
Segmentacija slike
Kompresija slike
Kvantizacija vektora
Analiza klastera
Sadržaj učenja ili učenja rječnika
Identificiranje podruja podložnih kriminalu
Otkrivanje prijevara u osiguranju
Analiza podataka javnog prijevoza
Grupiranje IT imovine
Segmentacija korisnika
Prepoznavanje podataka o raku
Koristi se u tražilicama
Predviđanje aktivnosti lijekova

Prednosti Algoritma klastera klastera

Brzo je
Robustan
Lako za razumjeti
Usporedno učinkovit
Ako su skupovi podataka različiti, tada se daju najbolji rezultati
Stvarajte čvršće grozdove
Kada se izračunaju centroidi, promjene klastera se mijenjaju.
Fleksibilno
Lako za tumačenje
Bolji računski troškovi
Povećava preciznost
Radi bolje sa sfernim nakupinama

Nedostaci K-značenja algoritma klasteriranja

Potrebno je prethodno specificirati broj centara klastera
Ako postoje dva visoko preklapajuća podatka, onda ih se ne može razlikovati i ne može reći da postoje dva klastera
Uz različitu zastupljenost podataka, postignuti rezultati također su različiti
Euklidska udaljenost može nejednako ponderirati faktore
Daje lokalnu optimalnost funkcije pogreške u obliku kvadrata
Ponekad odabir centroida nasumično ne može dati plodne rezultate
Može se koristiti samo ako je značenje definirano
Ne mogu se nositi s potrošenim i bučnim podacima
Ne radite za nelinearni skup podataka
Nedostaje dosljednost
Osjetljiv na skali
Ako se nađu vrlo veliki skupovi podataka, tada se računalo može srušiti.
Pitanja predviđanja

Preporučeni članci

Ovo je vodič za algoritam klastera K-znači. Ovdje smo raspravljali o radu, primjenama, prednostima i nedostacima algoritma klastera K-Means. Možete i proći naše druge predložene članke da biste saznali više -

Što su neuronske mreže?
Što je istraživanje podataka? | Uloga data datainga
Pitanje za intervjuiranje podataka
Strojno učenje i neuronska mreža
Klasteriranje u strojnom učenju

K- znači algoritam klasteriranja - Kako to djeluje - Analiza i provedba

Sadržaj:

Uvod u K-znači klaster algoritam?

Razumijevanje K- znači algoritam klasteriranja

Kako funkcionira algoritam klasteriranja K-znači?

Metoda lakta

Namjena-Based

Kako koristiti gore navedene metode?

Korak 1: Inicijalizacija

Korak 2: Dodjela klastera

Korak 3: Premještanje Centroida

4. korak: optimizacija

5. korak: konvergencija

Primjene algoritma klasteriranja klastera

Prednosti Algoritma klastera klastera

Nedostaci K-značenja algoritma klasteriranja

Preporučeni članci

Što je Adobe Creative Cloud? - Što možemo učiniti s Creative Cloudom?

Što je Adobe Lightroom? - Kako to djeluje - Top tvrtke i prednosti

Što ako analiza u Excelu - Kako se primjeri scenarija u Excelu s primjerima

Što je Adobe Illustrator? - Kako to djeluje - Opseg i vještine - prednosti

Tjedan Formule u Excelu - Kako se koristi WEEKDAY Formula u Excelu?

3 najbolje data karijere za Data Scientist vs Data Engineer vs Statistician

Data Scientist vs Softverski inženjer - korisno 8 usporedba

Data Scientist vs Strojno učenje - koji je bolji

Što rade znanstvenici podataka? - Značenje - programi

Top 10 pitanja o intervjuima o strukturi podataka i odgovori ažurirani za 2019. godinu

Obrezivanje slika u Adobe Camera Raw 8

Kako ispraviti krive fotografije u Photoshopu

Kako koristiti podešavanje kontrasta svjetline u Photoshopu

Automatski kontrast, automatski ton i automatska boja u Photoshopu

Kako čitati i razumjeti histograme slike u Photoshopu