Uvod u K-znači klaster algoritam?

K- Znači klasteriranje pripada algoritmu nenadziranog učenja. Koristi se kada podaci nisu definirani u skupinama ili kategorijama, tj. Neobilježeni podaci. Cilj ovog algoritma grupiranja je pretraživanje i pronalazak grupa u podacima, gdje varijabla K predstavlja broj skupina.

Razumijevanje K- znači algoritam klasteriranja

Ovaj je algoritam iterativni algoritam koji particiju skupa podataka prema njihovim značajkama dijeli na K broj unaprijed definiranih ne preklapajućih različitih skupina ili podskupina. To čini podatkovne točke među klasterima što je moguće sličnijim, a pokušava pokušati održati klastere što je više moguće. Datoteke podataka raspoređuju u klaster ako je zbroj udaljenosti kvadrata između središta klastera i podatkovnih točaka minimalno tamo gdje je srednji klaster središta aritmetike središta podataka u klasteru. Manja varijacija klastera rezultira sličnim ili homogenim podatkovnim točkama unutar klastera.

Kako funkcionira algoritam klasteriranja K-znači?

K-znači klasteriranje algoritam treba sljedeće unose:

  • K = broj podskupina ili skupina
  • Uzorak ili set za trening = (x 1, x 2, x 3, ……… x n )

Pretpostavimo da imamo skup podataka koji nije obilježen i trebamo ih podijeliti u klastere.

Sada moramo pronaći broj klastera. To se može učiniti na dvije metode:

  • Metoda lakta.
  • Metoda namjene.

Raspravimo o njima ukratko:

Metoda lakta

U ovoj se metodi crta krivulja između "unutar zbroja kvadrata" (WSS) i broja klastera. Zakrivljena krivulja nalikuje ljudskoj ruci. Zove se metoda lakta jer nam točka lakta u krivini pruža optimalan broj nakupina. Na grafikonu ili krivulji, nakon točke lakta, vrijednost WSS se mijenja vrlo sporo, pa se točka lakta mora uzeti u obzir da bi dala konačnu vrijednost broja grozdova.

Namjena-Based

U ovoj se metodi podaci dijele na temelju različitih mjernih podataka i nakon toga se procjenjuje koliko je dobro izvedeno u tom slučaju. Na primjer, raspored košulja u odjelu za mušku odjeću u tržnom centru odvija se prema kriterijima veličina. To se može učiniti na temelju cijene i marki također. Odabrao bi se najprikladniji koji bi dao optimalan broj grozdova tj. Vrijednost K.

Sada se vratimo na gore navedeni podatak. Možemo izračunati broj klastera tj. Vrijednost K pomoću bilo koje od gore navedenih metoda.

Kako koristiti gore navedene metode?

Sada pogledajmo postupak izvršenja:

Korak 1: Inicijalizacija

Prvo, inicijalizirajte bilo koje slučajne točke nazvane centroidi klastera. Tijekom inicijalizacije morate voditi računa da centroidi klastera moraju biti manji od broja bodova podataka o treningu. Ovaj je algoritam iterativni algoritam, pa se sljedeća dva koraka ponavljaju iterativno.

Korak 2: Dodjela klastera

Nakon inicijalizacije, prelaze se sve podatkovne točke i izračunava se udaljenost između svih centroida i podatkovnih točaka. Sada bi se grozdovi formirali ovisno o minimalnoj udaljenosti od centroida. U ovom su primjeru podaci podijeljeni u dva klastera.

Korak 3: Premještanje Centroida

Kako klasteri formirani u gornjem koraku nisu optimizirani, tako moramo i formirati optimizirane klastere. Za to moramo centroide iterativno premjestiti na novo mjesto. Uzmite podatkovne točke jednog klastera, izračunajte njihov prosjek, a zatim pomaknite centroid tog grozda na ovo novo mjesto. Ponovite isti korak za sve ostale klastere.

4. korak: optimizacija

Gornja dva koraka se rade iterativno dok se centroidi ne prestanu kretati, tj. Više ne mijenjaju svoje položaje i postaju statični. Kad se to učini, algoritam k- znači nazvan je konvergiranjem.

5. korak: konvergencija

Sada se ovaj algoritam zbližio i formiraju se različiti klasteri i jasno su vidljivi. Ovaj algoritam može dati različite rezultate ovisno o tome kako su klasteri inicijalizirani u prvom koraku.

Primjene algoritma klasteriranja klastera

  • Segmentacija tržišta
  • Grupiranje dokumenata
  • Segmentacija slike
  • Kompresija slike
  • Kvantizacija vektora
  • Analiza klastera
  • Sadržaj učenja ili učenja rječnika
  • Identificiranje podruja podložnih kriminalu
  • Otkrivanje prijevara u osiguranju
  • Analiza podataka javnog prijevoza
  • Grupiranje IT imovine
  • Segmentacija korisnika
  • Prepoznavanje podataka o raku
  • Koristi se u tražilicama
  • Predviđanje aktivnosti lijekova

Prednosti Algoritma klastera klastera

  • Brzo je
  • Robustan
  • Lako za razumjeti
  • Usporedno učinkovit
  • Ako su skupovi podataka različiti, tada se daju najbolji rezultati
  • Stvarajte čvršće grozdove
  • Kada se izračunaju centroidi, promjene klastera se mijenjaju.
  • Fleksibilno
  • Lako za tumačenje
  • Bolji računski troškovi
  • Povećava preciznost
  • Radi bolje sa sfernim nakupinama

Nedostaci K-značenja algoritma klasteriranja

  • Potrebno je prethodno specificirati broj centara klastera
  • Ako postoje dva visoko preklapajuća podatka, onda ih se ne može razlikovati i ne može reći da postoje dva klastera
  • Uz različitu zastupljenost podataka, postignuti rezultati također su različiti
  • Euklidska udaljenost može nejednako ponderirati faktore
  • Daje lokalnu optimalnost funkcije pogreške u obliku kvadrata
  • Ponekad odabir centroida nasumično ne može dati plodne rezultate
  • Može se koristiti samo ako je značenje definirano
  • Ne mogu se nositi s potrošenim i bučnim podacima
  • Ne radite za nelinearni skup podataka
  • Nedostaje dosljednost
  • Osjetljiv na skali
  • Ako se nađu vrlo veliki skupovi podataka, tada se računalo može srušiti.
  • Pitanja predviđanja

Preporučeni članci

Ovo je vodič za algoritam klastera K-znači. Ovdje smo raspravljali o radu, primjenama, prednostima i nedostacima algoritma klastera K-Means. Možete i proći naše druge predložene članke da biste saznali više -

  1. Što su neuronske mreže?
  2. Što je istraživanje podataka? | Uloga data datainga
  3. Pitanje za intervjuiranje podataka
  4. Strojno učenje i neuronska mreža
  5. Klasteriranje u strojnom učenju

Kategorija: