Pregled vrsta klasteriranja

Prije nego što naučimo vrste klasteriranja, razumjet ćemo što je klasteriranje i zašto je to sada važno u industriji strojnog učenja.

Što je klasteriranje? Klasteriranje je proces u kojem algoritam dijeli podatkovne točke na skupi broj grupa na temelju principa da slične podatkovne točke ostanu blizu jedna drugoj i da padaju u istu skupinu.

Zašto je to sada tako važno? Shvatimo da primjerom primjerice postoji internetska trgovina odjeće i oni žele bolje razumjeti svoje kupce kako bi mogli poboljšati svoju strategiju oglašavanja. Nije moguće da imaju jedinstvenu strategiju za svakog kupca, umjesto toga, ono što mogu učiniti je podijeliti kupce na određeni broj grupa (na temelju njihove prethodne kupnje) i imati zasebnu strategiju zasebnih grupa. To čini poslovanje učinkovitijim, a to je razlog zašto je klasteriranje sada važno u industriji.

Vrste klasteriranja

Metode klasteriranja uglavnom se klasificiraju u dvije vrste. To su tvrde metode i meke metode. U metodi tvrdog grupiranja, svaka podatkovna točka ili opažanje pripada samo jednom klasteru. Kod metode mekog klasteriranja svaka podatkovna točka neće u potpunosti pripadati jednom klasteru, umjesto toga, može biti član više klasa, ima skup koeficijenata članstva koji odgovaraju vjerojatnosti da će biti u određenom klasteru.

Trenutno se koriste različite vrste klasteriranja u upotrebi, ovdje u ovom članku pogledajte neke važne kao što su hijerarhijsko grupiranje, klasteriranje podjelama, nejasno klasteriranje, klasteriranje na temelju gustoće i klasteriranje temeljeno na modelu distribucije. Sada ćemo razgovarati o svakom od ovih primjera:

1. Klasteriranje particija

Particioniranje Klasteriranje je vrsta tehnike klasteriranja koja dijeli skup podataka u skupi broj grupa. (Na primjer, vrijednost K u KNN i to ćemo odlučiti prije nego što obučimo model). Može se nazvati i metodom temeljenom na centroidima. U ovom pristupu centar klastera (centroid) se formira tako da je udaljenost podatkovnih točaka u tom klasteru minimalna ako se izračuna s drugim centroidima klastera. Najpopularniji primjer ovog algoritma je algoritam KNN. Ovako izgleda algoritam klasteriranja particioniranja

2. Hijerarhijsko grupiranje

Hijerarhijsko klasteriranje je vrsta klaster tehnike koja taj skup podataka dijeli na broj klastera, gdje korisnik ne određuje broj klastera koji će se generirati prije treninga modela. Ova vrsta klaster tehnike poznata je i kao metoda na bazi povezivanja. U ovoj se metodi neće jednostavno izvršiti podjela skupa podataka, dok nam pruža hijerarhiju klastera koji se spajaju jedan s drugim nakon određene udaljenosti. Nakon što se na skupu podataka izvrši hijerarhijsko grupiranje, rezultat će biti stablo temeljenih prikaza podataka (Dendogram) koji su podijeljeni u klastere. Ovako izgleda hijerarhijsko grupiranje nakon odrađenog treninga

Izvor veze: Hijerarhijsko klasteriranje

U klasteriranju particija i hijerarhijskom klasteriranju jedna glavna razlika koju možemo primijetiti je u grupiranju particija, unaprijed ćemo odrediti vrijednost na koliko klastera želimo podijeliti skup podataka i ne moramo unaprijed odrediti ovu vrijednost u hijerarhijskom klasteriranju.,

3. Klasteriranje na temelju gustoće

U ovom će se grupiranju klasteri tehnike formirati segregacijom različitih područja gustoće na temelju različitih gustoća u grafikonu podataka. Prostorni klasteriranje i primjena s bukom temeljenom na gustoći (DBSCAN) najkorišteniji je algoritam u ovoj vrsti tehnike. Glavna ideja ovog algoritma je da treba postojati minimalan broj točaka koje sadrže u blizini određenog radijusa za svaku točku u klasteru. Do sada smo u gore spomenutim tehnikama klasteriranja, ako pažljivo promatramo, uočili jednu zajedničku stvar u svim tehnikama koje su u obliku formiranih grozdova sferni ili ovalni ili konkavni. DBSCAN može formirati klastere različitih oblika, ova vrsta algoritma je najprikladnija kada skup podataka sadrži buku ili izdanke. Ovako izgleda algoritam za prostorno klasteriranje temeljen na gustoći nakon odrađenog treninga.

Izvor veze: Klasteriranje na temelju gustoće

4. Klasteriranje na temelju modela distribucije

U ovoj vrsti grupiranja, klasteri tehnike nastaju identificiranjem vjerojatnosti da sve podatkovne točke u klasteru potječu iz iste distribucije (Normalna, Gaussova). Najpopularniji algoritam u ovoj vrsti tehnike je cluster Expectation-Maximization (EM) koristeći Gaussove modele mješavina (GMM).

Uobičajene tehnike klasteriranja poput hijerarhijskog grupiranja i klasteriranja particijama ne temelje se na formalnim modelima, KNN pri klasteriranju particija daje različite rezultate s različitim K-vrijednostima. Kako KNN i KMN smatraju sredinu za središte klastera nije najbolje prikladno u nekim slučajevima s Gaussovim modelima miješanja, pretpostavljamo da su podatkovne točke Gaussove raspoređene, na taj način imamo dva parametra za opisivanje oblika klastera i standardno odstupanje. Na taj je način za svaki klaster dodijeljena jedna Gaussova raspodjela kako bi se dobile optimalne vrijednosti ovih parametara (srednja i standardna devijacija) koristi algoritam optimizacije nazvan Expectation Maximization. Ovako izgleda EM - GMM nakon treninga.

Izvor veze: Klasteriranje na temelju modela distribucije

5. Fuzzy Clustering

Pripada grani mekih metoda klasteriranja, dok sve gore spomenute tehnike grupiranja pripadaju tehnikama grupnih tvrdih metoda. Kod ove vrste tehnike klastera točke u blizini središta, možda je dio drugog clustera u višem stupnju od bodova na rubu istog klastera. Vjerojatnost da točka pripada nekom klasteru vrijednost je koja leži između 0 do 1. Najpopularniji algoritam u ovoj vrsti tehnike je FCM (Fuzzy C - Algoritam). Ovdje se središnji klaster izračunava kao srednja vrijednost svih točaka, ponderirano njihovom vjerojatnošću da pripadaju klasteru.

Zaključak - Vrste klasteriranja

Ovo su neke od različitih tehnika klasteriranja koje se trenutno koriste i u ovom smo članku opisali jedan popularan algoritam u svakoj tehnici grupiranja. Moramo odabrati vrstu tehnologije koju koristimo na temelju našeg skupa podataka i zahtjeva koje moramo ispuniti.

Preporučeni članci

Ovo je vodič za Vrste klastera. Ovdje ćemo raspravljati o različitim vrstama klastera sa njihovim primjerima. Možete također pogledati sljedeće članke da biste saznali više -

  1. Hijerarhijski algoritam klasteriranja
  2. Klasteriranje u strojnom učenju
  3. Vrste algoritama strojnog učenja
  4. Vrste tehnika analize podataka
  5. Kako koristiti i ukloniti hijerarhiju u Tableauu?
  6. Kompletan vodič za vrste analiza podataka

Kategorija: