Metode klasteriranja - Važnost i tehnike metoda klasteriranja

Sadržaj:

Anonim

Uvod u metode klasteriranja

Ovaj je članak predstavljen pregled različitih metoda grupiranja koje se koriste u tehnikama vađenja podataka s različitim principima. Klasteriranje je skup podataka koji su organizirani u različito logičko grupiranje. Grupiranje sličnih podataka i dodjeljivanje sličnih podataka u pojedinačne klastere. Klasteriranje se izvodi u velikim skupima podataka za nenadzirano učenje. Tijekom toga izvodimo podjelu na skupu podataka u grupe. Struktura grupiranja predstavljena je na sljedeći način s podskupinama. C = c1, c2… c n . Kako skupine klastera imaju slične objekte, neke mjere moraju se poduzeti u metodama grupiranja kako bi se odredile mjere udaljenosti i mjere sličnosti. Metode klasteriranja temelje se na vjerojatnim modelima. Iskopavanje podataka zahtijeva klasteriranje kako bi se skalabilnost mogla baviti visokim bazama podataka, rukovanjem višedimenzionalnim prostorom, baviti se pogrešnim podacima i bukom.

Objasnite metode klasteriranja?

Ova metoda grupiranja pomaže u grupiranju vrijednih podataka u klastere i iz toga se uzimaju odgovarajući rezultati temeljeni na različitim tehnikama. Primjerice, u pretraživanju informacija rezultati upita grupirani su u male skupine i svaki klaster ima nevažne rezultate. Pomoću tehnika klasteriranja grupiraju se u slične kategorije, a svaka kategorija dijeli se na podkategorije radi pomaganja u istraživanju izlaznih upita. Postoje različite vrste grupiranja, one su

  • Hijerarhijske metode
  • Načini particioniranja
  • Gustoća bazi
  • Klasteriranje na temelju modela
  • Mrežni model

Slijedi pregled tehnika koje se koriste u vađenju podataka i umjetnoj inteligenciji.

1. Hijerarhijska metoda

Ovom se metodom stvara klaster dijeljenjem na način odozdo prema gore i odozdo prema gore. Oba ova pristupa stvaraju dendrogram, koji se međusobno povezuje. Dendrogram je oblik sličan stablu koji održava redoslijed spojenih klastera. Hijerarhijske metode proizvode se više particija s obzirom na razine sličnosti. Podijeljeni su u aglomerativno hijerarhijsko grupiranje i razdjelno hijerarhijsko grupiranje. Ovdje se stablo klastera stvara pomoću tehnika spajanja. Za cijepanje se koristi podjela, spajanje koristi aglomerativno. Aglomerativno grupiranje uključuje:

  1. U početku uzimajući sve točke podataka i smatrajući ih pojedinačnim klasterima, započinjemo odozgo prema dolje. Ti se klasteri spajaju dok ne dobijemo željene rezultate.
  2. Sljedeća dva slična grozda grupirana su u jedan veliki grozd.
  3. Opet izračunavanje blizine u ogromnom klasteru i spajanje sličnih klastera.
  4. Konačni korak uključuje spajanje svih izdanih klastera na svakom koraku kako bi se stvorio konačni pojedinačni klaster.

2. Metoda podjele:

Glavni cilj podjele je premještanje. Oni premještaju particije premještanjem s jednog klastera u drugi što čini početnu particiju. Ona dijeli 'n' podatkovne objekte na 'k' broj klastera. Ova se particiona metoda preferira više od hijerarhijskog modela u prepoznavanju uzoraka. Sljedeći kriteriji postavljeni su za zadovoljavanje tehnika:

  • Svaki klaster trebao bi imati jedan objekt.
  • Svaki podatkovni objekt pripada jednom klasteru.

Particijske tehnike najčešće korištene su K-srednje vrijednosti algoritma. Oni se dijele na 'K' nakupine predstavljene centroidima. Svaki centar klastera izračunava se kao sredina tog klastera, a R funkcija vizualizira rezultat. Ovaj algoritam ima sljedeće korake:

  1. Nasumičnim odabirom K objekata iz skupa podataka i formiraju se početni centri (centroidi)
  2. Sljedeće dodjeljivanje euklidske udaljenosti između predmeta i srednjeg središta.
  3. Dodjeljivanje srednje vrijednosti za svaki pojedinačni klaster.
  4. Koraci ažuriranja Centroida za svaki 'k' klaster.

3. Model gustoće:

U ovom su modelu klasteri definirani lociranjem područja veće gustoće u klasteru. Glavni princip koji stoji iza njih je koncentriranje na dva parametra: maks. Polumjer susjedstva i min. Broj točaka. Model koji se temelji na gustoći identificira klastere različitih oblika i buke. Djeluje otkrivanjem uzoraka procjenom prostornog položaja i udaljenosti do ovdje korištene susjedove metode je DBSCAN (Prostorno grupiranje na temelju gustoće) koje pruža ruke za velike prostorne baze podataka. Korištenje tri podatkovne točke za grupiranje, naime Core point, Border points i outliers. Primarni je cilj identificirati klastere i njihove parametre distribucije. Proces klasteriranja zaustavlja se s potrebom za parametrima gustoće. Za pronalaženje klastera važno je imati parametar Minimalne značajke po klasteru za izračunavanje udaljenosti jezgre. Tri različita alata koja pruža ovaj model su DBSCAN, HDBSCAN, Multi-scale.

4. Klasteriranje na temelju modela

Ovaj model kombinira dva ili tri klastera zajedno iz distribucije podataka. Osnovna ideja ovog modela je da se podaci podijele u dvije skupine na temelju modela vjerojatnosti (Multivarijantne normalne distribucije). Ovdje je svaka grupa dodijeljena kao pojmovi ili klasa. Svaka komponenta je definirana funkcijom gustoće. Da bi se pronašao parametar u ovom modelu, koristi se procjena najveće vjerojatnosti za prilagodbu raspodjele smjese. Svaki klaster 'K' moderira se Gaussovom raspodjelom s dva parametra µ k srednjim vektorom i £ k kovarijancem.

5. Model zasnovan na mreži

U ovom pristupu objekti se smatraju prostorima pokretanim podjelom prostora na konačni broj ćelija da bi formirali mrežu. Uz pomoć mreže primjenjuje se tehnika grupiranja za bržu obradu koja obično ovisi o ćelijama a ne o objektima. Uključeni koraci su:

  • Izrada strukture rešetke
  • Gustoća stanica izračunava se za svaku stanicu
  • Primjena mehanizma sortiranja na njihove gustoće.
  • Pretraživanje centara klastera i kretanje po susjednim ćelijama kako bi se ponovio postupak.

Važnost metoda klasteriranja

  1. Imajući metode grupiranja pomaže u ponovnom pokretanju lokalnog postupka pretraživanja i uklanjanju neučinkovitosti. Klasteriranje pomaže u određivanju unutarnje strukture podataka.
  2. Ova klaster analiza korištena je za analizu modela, vektorsko područje privlačnosti.
  3. Klasteriranje pomaže u razumijevanju prirodnog grupiranja u skupu podataka. Njihova je svrha imati smisla podijeliti podatke u neku grupu logičkih grupiranja.
  4. Kvaliteta klastera ovisi o metodama i identificiranju skrivenih obrazaca.
  5. Oni igraju široku ulogu u aplikacijama kao što su marketinška ekonomska istraživanja, web blogovi za prepoznavanje obrazaca u mjerama sličnosti, obrada slike, prostorna istraživanja.
  6. Koriste se za vanjske detekcije za otkrivanje prijevara na kreditnim karticama.

Zaključak

Klasteriranje se smatra općim zadatkom za rješenje problema koji formulira problem optimizacije. On igra ključnu ulogu na području vađenja podataka i analize podataka. Vidjeli smo različite metode grupiranja koje dijele skup podataka ovisi o zahtjevima. Većina se istraživanja temelji na tradicionalnim tehnikama kao što su K-sredstva i hijerarhijskim modelima. Područja klastera primjenjuju se u stanjima velike dimenzije, što čini budući domet istraživača.

Preporučeni članak

Ovo je vodič za metode klasteriranja. Ovdje smo razgovarali o konceptu, važnosti i tehnikama metoda klasteriranja. Možete i proći naše druge predložene članke da biste saznali više -

  1. Što je ETL?
  2. Što je znanost o podacima
  3. Što je teradata?
  4. Top 6 AWS mogućnosti
  5. Klasteriranje u strojnom učenju
  6. Multivarijantna regresija
  7. Hijerarhijsko grupiranje | Aglomerativno i podjeljeno grupiranje