Predstavljamo najbolju usporedbu faktor analiza klastera v / s

Sadržaj:

Anonim

Što je klaster analiza

Klaster analiza grupira podatke na temelju karakteristika koje posjeduju. Klaster analiza grupira predmete na temelju čimbenika koji ih čine sličnim. Klaster analiza inače se naziva segmentacijska analiza ili analiza taksonomije. Klaster analiza ne razlikuje ovisne i neovisne varijable. Klasterska analiza koristi se u širokom rasponu područja kao što su psihologija, biologija, statistika, vađenje podataka, prepoznavanje uzoraka i druge društvene znanosti.

Cilj klaster analize

Glavni cilj analize klastera je pozabaviti se heterogenošću u svakom nizu podataka. Ostali ciljevi analize klastera su

  • Opis taksonomije - Identificiranje skupina unutar podataka
  • Pojednostavljenje podataka - sposobnost analize grupa sličnih opažanja umjesto svih pojedinačnih promatranja
  • Stvaranje ili testiranje hipoteza - razviti hipotezu na temelju prirode podataka ili testirati prethodno navedenu hipotezu
  • Identifikacija odnosa - Pojednostavljena struktura iz analize klastera koja opisuje odnose

Postoje dvije glavne svrhe klaster analize - razumijevanje i korisnost.

U okolnostima Razumijevanja, analiza klastera grupira predmete koji imaju neke zajedničke karakteristike

U svrhu uslužnog programa, analiza klastera daje karakteristike svakog objekta podataka klasterima kojima pripadaju.

Klaster analiza ide paralelno s faktorskom analizom i diskriminacijskom analizom.

Prije nego što počnete s njom, postavite sebi nekoliko pitanja o klaster analize

  • Koje su varijable relevantne?
  • Je li dovoljna veličina uzorka?
  • Mogu li se otkriti odmetnici i treba li ih ukloniti?
  • Kako treba mjeriti sličnost predmeta?
  • Treba li podatke standardizirati?

Vrste klastera

Postoje tri glavne vrste grupiranja

  • Hijerarhijsko klasteriranje - koje sadrži aglomerativnu i razdjelnu metodu
  • Djelomično grupiranje - ispod njega sadrži K-sredstva, nejasna K-sredstva, isodate
  • Klasteriranje na temelju gustoće - ima Denclust, CLUPOT, srednju pomak, SVC, parzen-vodopad ispod njega

Pretpostavke u klaster analizi

U analizi klastera uvijek postoje dvije pretpostavke

  • Pretpostavlja se da je uzorak predstavnik populacije
  • Pretpostavlja se da varijable nisu povezane. Čak i ako su varijable u korelaciji, uklonite korelirane varijable ili koristite mjere udaljenosti koje nadoknađuju korelaciju.

Koraci u klaster analizi

    • 1. korak: definiranje problema
    • Korak 2: Odlučite odgovarajuću mjeru sličnosti
    • Korak 3: Odlučite kako grupirati objekte
    • Korak 4: Odlučite broj klastera
    • Korak 5: Tumačiti, opisati i potvrditi klaster

Analiza klastera u SPSS

U SPSS-u možete naći opciju analize klastera u opciji Analiza / Klasificiraj. U SPSS-u postoje tri metode za analizu klastera - klaster K-znači, hijerarhijski klaster i klaster u dva koraka.

K-Means metoda klastera klasificira zadani skup podataka kroz fiksni broj klastera. Ovu je metodu lako razumjeti i daje najbolji učinak kad su podaci međusobno dobro odvojeni.

Dvostupanjska analiza klastera alat je namijenjen za obradu velikih skupova podataka. To stvara klastere i na kategoričke i na kontinuirane varijable.

Hijerarhijska skupina je najčešće korištena metoda analize klastera. Kombinira slučajeve u homogene nakupine spajajući ih kroz niz uzastopnih koraka.

Hijerarhijska analiza klastera sadrži tri koraka

  • Izračunajte udaljenost
  • Povežite klastere
  • Odabir rješenja odabirom pravog broja klastera

Niže su navedeni koraci za provođenje hijerarhijske analize klastera u SPSS-u.

  • Prvi korak je odabir varijabli koje će se grupirati. Donji dijaloški okvir objašnjava vam
  • Klikom na opciju statistike u gornjem dijaloškom okviru, dobit ćete dijaloški okvir u kojem želite odrediti izlaz
  • U dijaloškom okviru grafikoni dodajte Dendrogram. Dendrogram je grafički prikaz hijerarhijske metode analize klastera. Prikazuje kako se klasteri kombiniraju na svakom koraku sve dok ne formira jedinstven klaster.
  • Metoda dijaloškog okvira je presudna. Ovdje možete spomenuti udaljenost i način grupiranja. U SPSS-u postoje tri mjere za interval, brojanje i binarne podatke.
  • Kvadratna euklidijska udaljenost je zbroj kvadratnih razlika bez uzimanja kvadratnog korijena.
  • U brojevima možete odabrati mjeru Chi Square i Phi Square
  • U odjeljku Binarni snimci možete izabrati mnogo opcija. Najbolja opcija za korištenje je kvadrat euklidne udaljenosti.
  • Sljedeći korak je odabir metode klastera. Uvijek se preporučuje korištenje pojedinačne veze ili najbližeg susjeda jer lako pomaže identificirati odmetnike. Kad su odmetnici identificirani, možete koristiti Ward-ovu metodu.
  • Posljednji korak je standardizacija

Kritike klaster analize

U nastavku su navedene najčešće kritike

  • To je opisno, teorijsko i neinferencijalno.
  • To će stvoriti klastere bez obzira na stvarno postojanje bilo koje strukture
  • Ne može se koristiti široko jer potpuno ovisi o varijablama koje se koriste kao osnova za mjeru sličnosti

Što je faktorska analiza?

Faktorska analiza je istraživačka analiza koja pomaže u grupiranju sličnih varijabli u dimenzije. Može se upotrijebiti za pojednostavljenje podataka smanjenjem dimenzija opažanja. Faktorska analiza ima nekoliko različitih načina rotacije.

Faktorska analiza koristi se uglavnom za potrebe smanjenja podataka.

Postoje dvije vrste faktorskih analiza - istraživačka i potvrdna

  • Istraživačka metoda koristi se kada nemate unaprijed definiranu ideju o strukturama ili dimenzijama u skupu varijabli.
  • Metoda potvrde koristi se kada želite testirati određene hipoteze o strukturama ili dimenzijama u skupu varijabli.

Ciljevi faktorske analize

Postoje dva glavna cilja faktorske analize koja su navedena u nastavku

  • Identifikacija osnovnih čimbenika - To uključuje grupiranje varijabli u homogene skupove, stvaranje novih varijabli i pomaganje u stjecanju znanja o kategorijama
  • Pregled varijabli - To je korisno u regresiji i identificira grupiranje kako bi vam omogućilo odabir jedne varijable koja predstavlja mnoge.

Pretpostavke faktorske analize

Postoje četiri glavne pretpostavke faktor analize koje su spomenute u nastavku

  • Modeli se obično temelje na linearnim odnosima
  • Pretpostavlja se da su prikupljeni podaci intervalno skalirani
  • Multikolinearnost podataka je poželjna jer je cilj pronaći međusobno povezani skup varijabli
  • Podaci trebaju biti otvoreni i osjetljivi za analizu faktora. Ne bi trebalo biti na takav način da varijabla bude povezana samo sa sobom i da ne postoji povezanost s bilo kojom drugom varijablom. Faktorska analiza ne može se napraviti na takvim podacima.

Vrste faktoringa

  • Faktoring glavnih sastojaka - metoda koja se najčešće koristi u izračunu težine faktora kako bi se izvukla maksimalna moguća varijanca i nastavlja se dok ne ostane značajna varijanca.
  • Kanonska faktorska analiza - nalazi čimbenike koji imaju najveću kanonsku korelaciju s promatranim varijablama
  • Česta faktorska analiza - traži najmanji broj faktora koji mogu objasniti zajedničku varijancu skupa varijabli
  • Faktor slike - Na temelju korelacijske matrice gdje se svaka varijabla predviđa od ostalih koristeći višestruku regresiju
  • Alpha Faktoring - maksimizira pouzdanost faktora
  • Faktorski regresijski model - Kombinacija faktorskih modela i regresijskog modela čiji su faktori djelomično poznati

Kriteriji faktorske analize

  1. Kriteriji za svojstvene vrijednosti

  • Predstavlja količinu varijance u izvornim varijablama koja je povezana s faktorom
  • Zbroj kvadrata opterećenja faktora svake varijable na faktor predstavlja svojstvenu vrijednost
  • Čuvaju se faktori s vlastitim vrijednostima većim od 1, 0
  1. Kriteriji zasijavanja

  • Rješavanje svojstvenih vrijednosti prema broju čimbenika, prema redoslijedu ekstrakcije.
  • Oblik parcele određuje broj čimbenika
  1. Postotak kriterija varijancije

  • Saznaje se broj izvučenih čimbenika, tako da sve veći postotak varijance izvučen faktorima doseže razinu zadovoljstva.
  1. Kriteriji za značajnost

  • Utvrđena je statistička važnost zasebnih vlastitih vrijednosti, a zadržani su samo oni čimbenici koji su statistički značajni

Faktorska analiza koristi se u raznim područjima kao što su psihologija, sociologija, politologija, obrazovanje i mentalno zdravlje.

Faktorska analiza u SPSS

U SPSS-u se opcija faktorske analize može naći u Analizu à Smanjenje dimenzija-Faktor

  • Započnite dodavanjem varijabli na popis odjeljka varijabli
  • Kliknite karticu Opis i dodajte nekoliko statistika pod kojima se provjeravaju pretpostavke faktorske analize.
  • Kliknite opciju Ekstrakcija koja će vam omogućiti odabir metode ekstrakcije i odrezati vrijednost za ekstrakciju
  • Glavni sastojci (PCA) je zadana metoda ekstrakcije koja ekstrahira čak i neusklađene linearne kombinacije varijabli. PCA se može koristiti kad je korelacijska matrica jednina. Vrlo je slična kanoničkoj korelacijskoj analizi gdje prvi faktor ima maksimalnu varijancu a sljedeći faktori objašnjavaju manji dio varijance.
  • Druga najopćenitija analiza je faktoring glavnih osovina. Identificira latentne konstrukte koji stoje iza opažanja.
  • Sljedeći je korak odabir metode rotacije. Najčešće korištena metoda je Varimax. Ova metoda pojednostavljuje tumačenje čimbenika.
  • Druga metoda je Quartimax. Ovom se metodom rotiraju faktori kako bi se smanjio broj čimbenika. Pojednostavljuje tumačenje promatrane varijable.
  • Sljedeća metoda je Equamax koja je kombinacija gore navedene dvije metode.
  • U dijaloškom okviru klikom na "opcije" možete upravljati vrijednostima koji nedostaju
  • Prije spremanja rezultata u skup podataka, prvo pokrenite analizu faktora i provjerite postoje li pretpostavke i potvrdite da su rezultati smisleni i korisni.

Analiza klastera u odnosu na faktor analize

I analiza klastera i faktorska analiza su nenadzirana metoda učenja koja se koristi za segmentaciju podataka. Mnogi istraživači koji su novi u ovom području smatraju da su analiza klastera i faktorska analiza slični. Moglo bi se činiti slično, ali razlikuju se na više načina. Razlike između analize klastera i faktorske analize navedene su u nastavku

  • Cilj

Cilj analize klastera i faktora su različiti. Cilj klaster analize je podijeliti promatranja na homogene i različite skupine. Faktorska analiza s druge strane objašnjava homogenost varijabli koja je rezultat sličnosti vrijednosti.

  • Složenost

Složenost je još jedan čimbenik na kojem se klaster i faktorska analiza razlikuju. Veličina podataka različito utječe na analizu. Ako je veličina podataka prevelika, ona postaje računalno neizrečiva u analizi klastera.

  • Riješenje

Rješenje problema je manje ili više slično u analizama faktora i klastera. Ali faktorska analiza pruža bolje rješenje za istraživača u boljem aspektu. Analiza klastera ne daje najbolji rezultat jer su svi algoritmi u klaster analizi računalno neučinkoviti.

  • Prijave

Faktorska analiza i analiza klastera različito se primjenjuju na stvarne podatke. Faktorska analiza pogodna je za pojednostavljenje složenih modela. Smanjuje veliki skup varijabli na mnogo manji skup faktora. Istraživač može razviti skup hipoteza i pokrenuti faktorsku analizu da potvrdi ili negira ove hipoteze.

Klaster analiza pogodna je za razvrstavanje objekata na temelju određenih kriterija. Istraživač može izmjeriti određene aspekte grupe i podijeliti ih u određene kategorije pomoću klaster analize.

Postoji i puno drugih razlika koje su spomenute u nastavku

  • Klaster analiza pokušava grupirati slučajeve dok faktorska analiza pokušava grupirati obilježja.
  • Klaster analizom koristi se za pronalaženje manjih skupina slučajeva koji su reprezentativni za podatke u cjelini. Faktorska analiza koristi se za pronalaženje manje grupe značajki koje su reprezentativne izvorne značajke skupova podataka.
  • Najvažniji dio analize klastera je pronalazak broja klastera. U osnovi se metode grupiranja dijele na dvije - Aglomerativna metoda i Metoda razdvajanja. Aglomerativna metoda započinje sa svakim slučajem u njegovom klasteru i zaustavlja se kada se dođe do kriterija. Način particioniranja započinje sa svim slučajevima u jednom klasteru.
  • Faktorska analiza koristi se za otkrivanje temeljne strukture u skupu podataka.

Zaključak

Nadam se da će vam ovaj članak pomoći da shvatite osnove klaster analize i faktor analize i razlike između to dvoje.

Povezani tečajevi: -

  1. Tečaj klaster analize