Hijerarhijski algoritam klasteriranja - Vrste i koraci hijerarhijskog klasteriranja

Uvod u hijerarhijski algoritam klasteriranja

Hijerarhijski algoritam klasteriranja je tehnika nenadziranog strojnog učenja. Njegov je cilj pronaći prirodno grupiranje na temelju karakteristika podataka.

Algoritam hijerarhijskog grupiranja ima za cilj pronalaženje ugniježđenih skupina podataka izgradnjom hijerarhije. Slično je s biološkom taksonomijom biljnog ili životinjskog carstva. Hijerarhijski klasteri su općenito predstavljeni pomoću hijerarhijskog stabla poznatog kao dendrogram.

Vrste hijerarhijskog algoritma klastera

Hijerarhijski algoritmi grupiranja su 2 tipa:

razdvajajući
aglomerativnim

1. podjele

To je pristup odozgo prema dolje, gdje se u početku cjelokupni podaci smatraju jednom skupinom, a zatim ih iterativno dijeli na podskupine. Ako je poznat broj hijerarhijskog algoritma grupiranja, tada se proces podjele zaustavlja nakon postizanja broja klastera. Inače, proces se zaustavlja kad se podaci više ne mogu podijeliti, što znači da je podskupina dobivena trenutnom iteracijom jednaka onoj dobivenoj iz prethodne iteracije (također se može uzeti u obzir da se podjela zaustavlja kad je svaka točka podataka klaster ).

2. aglomerativni

To je pristup odozdo prema gore koji se oslanja na spajanje klastera. U početku se podaci dijele na m jednotonske klastere (gdje je vrijednost m broj uzoraka / podataka). Dva klastera su spojena u jedan iterativno, čime se smanjuje broj klastera u svakoj iteraciji. Ovaj postupak spajanja klastera prestaje kada su svi klasteri spojeni u jedan ili je postignut broj željenih klastera.

Na razini 1, postoje m klasteri koji se smanjuju na 1 klaster na razini m. One točke podataka koje se spajaju radi formiranja klastera na nižoj razini ostaju u istom klasteru i na višim razinama. Npr., Pretpostavimo da postoji 8 točaka x1..x8, tako da u početku postoji 8 klastera na razini 1. Pretpostavimo da se točke x1 i x2 spoje u klaster na razini 2, a zatim do razine 8, ostaju u istom klasteru.

Gornja slika prikazuje dendrogramski prikaz klasteriranja aglomeracije za 8 podatkovnih točaka kao i skala sličnosti koja odgovara svakoj razini.

Razine klastera daju nam predodžbu o tome koliko su slične podatkovne točke u klasterima. Kao što je prikazano na slici 1, ranije se točke podataka spajaju u klaster, slične su. Dakle, podatkovne točke unutar klastera na razini 2 (npr. X2 i x3) sličnije su onima podatkovnih točaka u klasteru na razini 6 (npr. X1 i x2).

Gornja slika prikazuje skup ili Venn dijagram prikaz aglomerativnog pristupa klastera gore navedenih 8 podataka. Za grupiranje se mogu koristiti i dendrogrami i postavljeni reprezentacije. Međutim, dendrogram je obično poželjno predstavljanje imovine ne može kvantitativno predstaviti sličnosti klastera.

Koraci za hijerarhijski algoritam klasteriranja

Slijedimo sljedeće korake za algoritam hijerarhijskog grupiranja koji su dani u nastavku:

1. Algoritam

Algoritam aglomerativnog hijerarhijskog grupiranja

Počnite inicijalizirati c, c1 = n, Di = (xi), i = 1, …, n '
Učinite c1 = c1 - 1
Pronađite najbliže klastere, recimo, Di i Dj
Spoji Di i Dj
Sve dok c = c1
Povratak c klastera
Kraj

Ovaj algoritam započinje s n klastera u početku gdje je svaka podatkovna točka klaster. Svakom iteracijom broj klastera smanjuje se za 1 dok se 2 najbliža klastera spajaju. Ovaj se proces nastavlja sve dok se broj klastera ne smanji na unaprijed zadanu vrijednost c.

Kako odlučiti koji su klasteri u blizini?

To se definira pomoću nekoliko metričkih udaljenosti koje su sljedeće:

Minimalna udaljenost između klastera dmin (Di, Dj). Korisno za samce.
Maksimalna udaljenost između klastera dmax (Di, Dj). Korisno za cjelovito.
Prosječna udaljenost između nakupina davg (Di, Dj).

Što je jednostruka i potpuna veza?

Kad se dmin (di, dj) koristi za pronalazak udaljenosti između dva klastera, a algoritam prestaje ako udaljenost između najbližih klastera prelazi prag, tada se algoritam naziva algoritam jednosmjerne veze.
Kad se dmax (Di, Dj) koristi za pronalazak udaljenosti između dva klastera, a algoritam prestaje ako udaljenost između najbližih klastera prelazi prag, tada se algoritam naziva algoritam potpune veze.
Razmotrimo svaku točku podataka kao čvor grafikona. Postoje dvije granice ako pripadaju istom skupu podataka. Kad se dva najbliža grozda spoje, dodaje se rub. Naziva se jednom vezom jer postoji jedinstvena staza od jednog čvora do drugog.
Algoritam potpune veze spaja dva klastera smanjujući udaljenost između dvije najudaljenije točke.
Jedan algoritam povezivanja generira opružno stablo. Međutim, ovaj je algoritam osjetljiv na buku. Kompletni algoritam povezivanja generira kompletan graf.

Koja je vremenska složenost algoritma?

Pretpostavimo da u d-dimenzionalnom prostoru imamo n obrazaca, a dmin (Di, Dj) koristimo za formiranje c klastera. Moramo izračunati n (n - 1) udaljenosti među točkama - od kojih je svaka O (d ² ) proračun - i rezultate staviti u tablicu udaljenosti između točaka. Složenost prostora je O (n ² ). Pronalaženje para minimalnih udaljenosti (za prvo spajanje) zahtijeva da pređemo cijeli popis, zadržavajući indeks najmanje udaljenosti.

Stoga je za prvi aglomerativni korak složenost O (n (n - 1) (d ² + 1)) = O (n ² d ² ). Za drugi proizvoljni korak aglomeracije (tj. Od c1 do c1 - 1), samo korak kroz n (n - 1) - c1 "neiskorištene" udaljenosti na popisu i pronalazimo najmanju vrijednost za koju x i x 'leže u različitim klasterima, Ovo je, opet, O (n (n-1) -c1). Ukupna vremenska složenost je dakle O (cn ² d ² ), a u tipičnim uvjetima n >> c.

2. Vizualizacija

Jednom kada se podaci podijele na klastere, dobra je praksa vizualizirati klastere kako bi se dobila ideja kako skupljanje izgleda. Ali teško je vizualizirati ove podatke velike dimenzije. Stoga koristimo analizu glavnih komponenti (PCA) za vizualizaciju. Nakon PCA, dobivamo podatkovne točke u prostoru malih dimenzija (uglavnom 2D ili 3D) koje možemo zamisliti kako bismo vidjeli grupiranje.

Napomena: Velika dimenzija znači veliki broj značajki, a ne broj podataka.

3. Procjena

Jedna od metoda za evaluaciju klastera je da udaljenost točaka između klastera (među-klaster udaljenost) treba biti mnogo veća od udaljenosti točaka unutar klastera (unutar-klaster udaljenost).

Zaključak

Evo nekoliko ključnih postupaka:

Algoritam hijerarhijskog grupiranja koristi se za pronalaženje ugniježđenih obrazaca u podacima
Hijerarhijsko grupiranje je 2 tipa - Divisivno i aglomerativno
Dendrogram i set / Venn dijagram mogu se koristiti za predstavljanje
Pojedinačna veza spaja dva klastera smanjujući minimalnu udaljenost između njih. Tvori raspon
Kompletna veza spaja dva grozda minimizirajući maksimalnu udaljenost između nje.
Ukupna vremenska složenost hijerarhijskog algoritma grupiranja je O (cn ² d ² ), gdje je c unaprijed definirani broj klastera, n je broj obrazaca i d je dvodimenzionalni prostor n obrazaca.

Preporučeni članci

Ovo je vodič za algoritam hijerarhijskog klasteriranja. Ovdje ćemo raspravljati o vrstama i koracima algoritama hijerarhijskog grupiranja. Možete pogledati i sljedeće članke da biste saznali više -

Hijerarhijska analiza klasteriranja
Hijerarhijsko grupiranje u R '
Algoritam klastera
Što je klasteriranje u Rudarstvu podataka?
Hijerarhijsko grupiranje | Aglomerativno i podjeljeno grupiranje
C ++ algoritam | Primjeri C ++ algoritma

Hijerarhijski algoritam klasteriranja - Vrste i koraci hijerarhijskog klasteriranja

Sadržaj:

Uvod u hijerarhijski algoritam klasteriranja

Vrste hijerarhijskog algoritma klastera

1. podjele

2. aglomerativni

Koraci za hijerarhijski algoritam klasteriranja

1. Algoritam

2. Vizualizacija

3. Procjena

Zaključak

Preporučeni članci

PHP Dok se petlja - Objasnite dijagram tijeka i njegove vrste zajedno s primjerima

Intervjui svinja - Kako razbiti najboljih 30 pitanja

Naredbe svinja - Osnovne i napredne naredbe sa savjetima i trikovima

Grafikon pita u R - Kako stvoriti - Kako stvoriti 3D & Fill boju u Pie Chart-u

Piecewise funkcija u Matlabu - Metode djelotvornog funkcioniranja i primjera

ROW u Excelu (formula, primjeri) - Kako se koristi ROW funkcija?

R Programiranje vs Python - Istražite 10 najboljih nevjerojatnih razlika

Transformacija usmjerivača u Informatici - Korak po korak Objašnjenje

R string funkcije - Manipulacija funkcije R stringa s primjerima

ROUNDUP u Excelu (formula, primjeri) - Upotreba funkcije ROUNDUP

Regresijska analiza u Excelu - Kako koristiti regresijsku analizu (primjer)

Formula relativne promjene - Kalkulator (Predložak Excela)

Formula relativnog smanjenja rizika - Kalkulator (Predložak Excela)

Formula relativnog standardnog odstupanja - Kalkulator RSD (obrazac Excel)

Daljinsko upravljanje projektima (savjeti) - Savjeti za daljinsko upravljanje projektima