Kaj je analiza grozdov

Grozdna analiza združuje podatke na podlagi lastnosti, ki jih imajo. Grozdna analiza združuje predmete na podlagi dejavnikov, ki jim omogočajo podobnost. Grozdna analiza se drugače imenuje segmentacijska analiza ali analiza taksonomije. Grozdna analiza ne razlikuje odvisnih in neodvisnih spremenljivk. Grozdna analiza se uporablja na najrazličnejših področjih, kot so psihologija, biologija, statistika, rudarjenje podatkov, prepoznavanje vzorcev in druge družbene vede.

Cilj grozdne analize

Glavni cilj analize grozdov je obravnavati heterogenost v vsakem nizu podatkov. Drugi cilji grozdne analize so

  • Opis taksonomije - prepoznavanje skupin v podatkih
  • Poenostavitev podatkov - sposobnost analize skupin podobnih opazovanj namesto vseh posamičnih opazovanj
  • Izdelava hipotez ali testiranje - razviti hipotezo na podlagi narave podatkov ali preizkusiti predhodno navedeno hipotezo
  • Identifikacija odnosov - Poenostavljena struktura iz analize grozdov, ki opisuje odnose

Obstajata dva glavna cilja analize grozdov - Razumevanje in uporabnost.

V okoliščinah razumevanja grozdna analiza združuje predmete, ki imajo nekatere skupne značilnosti

V namenu Utility analiza grozdov zagotavlja značilnosti vsakega podatkovnega objekta gručam, ki jim pripadajo.

Grozdna analiza gre skupaj z analizo faktorjev in diskriminatorno analizo.

Preden začnete z njo, si zastavite nekaj vprašanj o analizi grozda

  • Katere spremenljivke so pomembne?
  • Ali je velikost vzorca dovolj?
  • Ali lahko odkrijejo odbitke in jih je treba odstraniti?
  • Kako naj ugovarja podobnost merjenja?
  • Ali je treba podatke standardizirati?

Vrste grozdov

Obstajajo tri glavne vrste grozdov

  • Hierarhična gruča - ki vsebuje aglomerativno in delitveno metodo
  • Delno grozdanje - pod seboj vsebuje K-Means, Fuzzy K-Means, Isodata
  • Napetost na gruči - pod njo ima Denclust, CLUPOT, srednji premik, SVC, parzen

Predpostavke v grozdni analizi

V analizi grozdov sta vedno dve predpostavki

  • Domneva se, da je vzorec predstavnik populacije
  • Domnevamo, da spremenljivke niso povezane. Tudi če so spremenljivke povezane, odstranite korelirane spremenljivke ali uporabite meritve na daljavo, ki kompenzirajo korelacijo.

Koraki v grozdni analizi

    • 1. korak: Opredelite težavo
    • 2. korak: Odločite se za ustrezen ukrep podobnosti
    • 3. korak: Odločite se, kako razvrstiti predmete
    • 4. korak: Odločite se za število gruč
    • 5. korak: Interpretirati, opisati in potrditi skupino

Grozdna analiza v SPSS

V SPSS lahko najdete možnost analize grozda v možnosti Analiziraj / Razvrsti. V SPSS obstajajo tri metode za grozdno analizo - K-Means Cluster, Hierarchical Cluster in Two Step Gluster.

Metoda grozda K-Means klasificira določen niz podatkov prek fiksnega števila grozdov. Ta metoda je enostavna za razumevanje in daje najboljše rezultate, če so podatki dobro ločeni drug od drugega.

Analiza grozdov v dveh korakih je orodje za upravljanje velikih naborov podatkov. Ustvari grozde tako na kategoričnih kot na neprekinjenih spremenljivkah.

Hierarhična skupina je najpogosteje uporabljena metoda analize grozdov. Zadeve združuje v homogene skupine, tako da jih združi skozi vrsto zaporednih korakov.

Hierarhična analiza grozdov vsebuje tri korake

  • Izračunajte razdaljo
  • Povežite grozde
  • Izbira rešitve z izbiro pravega števila grozdov

Spodaj so navedeni koraki za izvajanje hierarhične analize grozdov v SPSS.

  • Prvi korak je izbira spremenljivk, ki jih je treba združiti. Spodnje pogovorno okno vam razloži
  • S klikom na možnost statistike v zgornjem pogovornem oknu boste dobili pogovorno okno, kjer želite določiti izhod
  • V diagramu pogovornega okna dodajte Dendrogram. Dendrogram je grafični prikaz hierarhične metode analize grozdov. Pokaže, kako se grozdi združijo na vsakem koraku, dokler ne tvorijo ene same skupine.
  • Metoda pogovornega okna je ključnega pomena. Tu lahko omenite razdaljo in način združevanja. V SPSS obstajajo trije ukrepi za interval, štetje in binarne podatke.
  • Evklidska razdalja na kvadratu je vsota razlik v kvadratu, ne da bi vzeli kvadratni koren.
  • V štetjih lahko izbirate med merili Chi Square in Phi Square
  • V razdelku Binarni program lahko izbirate veliko. Najboljša izbira je kvadratna evklidska razdalja.
  • Naslednji korak je izbira metode grozda. Vedno je priporočljivo uporabiti enojno povezavo ali najbližji sosed, saj zlahka pomaga prepoznati zunanje osebe. Ko identificirajo odbitke, lahko uporabite Wardovo metodo.
  • Zadnji korak je standardizacija

Kritike grozdne analize

Spodaj so navedene najpogostejše kritike

  • Je opisno, teoretično in neinferentno.
  • Izdelala bo grozde ne glede na dejanski obstoj katere koli strukture
  • Ni ga mogoče široko uporabljati, saj je popolnoma odvisen od spremenljivk, ki se uporabljajo kot podlaga za ukrep podobnosti

Kaj je faktorska analiza?

Faktorska analiza je raziskovalna analiza, ki pomaga pri razvrščanju podobnih spremenljivk v dimenzije. Uporabite ga lahko za poenostavitev podatkov z zmanjšanjem dimenzij opazovanj. Faktorska analiza ima več različnih načinov vrtenja.

Faktorska analiza se večinoma uporablja za zmanjšanje podatkov.

Obstajata dve vrsti faktorskih analiz - raziskovalna in potrdilna

  • Raziskovalna metoda se uporablja, če nimate vnaprej definirane predstave o strukturah ali dimenzijah v naboru spremenljivk.
  • Potrditvena metoda se uporablja, kadar želite preizkusiti določeno hipotezo o strukturah ali dimenzijah v naboru spremenljivk.

Cilji faktorske analize

V nadaljevanju sta omenjena dva glavna cilja faktorske analize

  • Identifikacija osnovnih dejavnikov - to vključuje združevanje spremenljivk v homogene sklope, ustvarjanje novih spremenljivk in pomoč pri pridobivanju znanja o kategorijah
  • Pregled spremenljivk - Pomaga pri regresiji in identificira skupine, da lahko izberete eno spremenljivko, ki predstavlja veliko.

Predpostavke faktorske analize

Spodaj so omenjene štiri glavne predpostavke faktorjeve analize

  • Modeli običajno temeljijo na linearnih odnosih
  • Predpostavlja, da so zbrani podatki intervalno prilagojeni
  • Zaželena je večkolinearnost podatkov, saj je cilj ugotoviti medsebojno povezan niz spremenljivk
  • Podatki morajo biti odprti in odzivni za analizo faktorjev. Ne bi smelo biti tako, da bi spremenljivka le korelirala sama s seboj in ni nobene korelacije z nobeno drugo spremenljivko. Faktorskih analiz na takšnih podatkih ni mogoče narediti.

Vrste faktoringov

  • Faktoring glavnih komponent - najpogosteje uporabljena metoda, pri kateri se izračunajo faktorske uteži za pridobivanje največje možne odstopanja in se nadaljujejo, dokler ne ostanejo pomembne razlike.
  • Kanonična faktorska analiza - najde dejavnike, ki imajo najvišjo kanonsko korelacijo z opaženimi spremenljivkami
  • Skupna faktorska analiza - išče čim manj dejavnikov, ki lahko predstavljajo skupno varianco nabora spremenljivk
  • Faktor slike - temelji na korelacijski matrici, kjer se vsaka spremenljivka napoveduje od drugih z večkratno regresijo
  • Alpha Factoring - maksimira zanesljivost dejavnikov
  • Faktorski regresijski model - Kombinacija faktorskih modelov in regresijskega modela, katerih dejavniki so delno znani

Kriteriji faktorske analize

  1. Lastna merila

  • Predstavlja količino variance v izvirnih spremenljivkah, ki je povezana s faktorjem
  • Vsota kvadrata faktorskih obremenitev vsake spremenljivke na faktor predstavlja lastno vrednost
  • Faktorji z lastnimi vrednostmi, večjimi od 1, 0, se hranijo
  1. Kriteriji melišča

  • Načrt lastnih vrednosti glede na število dejavnikov, po vrstnem redu ekstrakcije.
  • Oblika ploskve določa število dejavnikov
  1. Odstotek kriterijev variacije

  • Ugotovimo število dejavnikov, ki izhajajo, tako da naraščajoči odstotek variance, ki ga izločajo dejavniki, doseže stopnjo zadovoljstva.
  1. Merila preizkusa pomembnosti

  • Ugotovimo statistično pomembnost ločenih lastnih vrednosti, ohranijo pa se le tisti dejavniki, ki so statistično pomembni

Faktorska analiza se uporablja na različnih področjih, kot so psihologija, sociologija, politologija, izobraževanje in duševno zdravje.

Faktorska analiza v SPSS

V SPSS lahko faktorsko analizo najdemo v Analizi à zmanjšanje dimenzije à faktor

  • Začnite z dodajanjem spremenljivk na seznam spremenljivk
  • Kliknite zavihek Opis in dodajte malo statistik, pod katerimi se preverjajo predpostavke faktorskih analiz.
  • Kliknite možnost Ekstrakcija, ki vam bo omogočila, da izberete način ekstrakcije in določite vrednost za ekstrakcijo
  • Glavni sestavni deli (PCA) je privzeta metoda ekstrakcije, ki pridobi celo neskladne linearne kombinacije spremenljivk. PCA je mogoče uporabiti, če je korelacijska matrica singularna. Zelo je podobna kanonični korelacijski analizi, kjer ima prvi faktor največjo varianto in naslednji dejavniki razložijo manjši del variance.
  • Druga najbolj splošna analiza je faktoring glavnega osi. Identificira latentne konstrukte, ki stojijo za opazovanji.
  • Naslednji korak je izbira načina vrtenja. Najpogosteje uporabljena metoda je Varimax. Ta metoda poenostavlja razlago dejavnikov.
  • Druga metoda je Quartimax. Ta metoda vrti dejavnike, da zmanjša število dejavnikov. Poenostavlja razlago opazovane spremenljivke.
  • Naslednja metoda je Equamax, ki je kombinacija zgornjih dveh metod.
  • V pogovornem oknu s klikom na »možnosti« lahko upravljate manjkajoče vrednosti
  • Preden rezultate shranite v nabor podatkov, najprej zaženite faktorsko analizo in preverite, ali predpostavke preverite, ali so rezultati smiselni in koristni.

Analiza grozdov in faktorskih analiz

Analiza grozdov in faktorska analiza sta nenadzorovana učna metoda, ki se uporablja za segmentacijo podatkov. Številni novi raziskovalci na tem področju menijo, da sta analiza grozdov in faktorska analiza podobna. Morda se zdi podobno, vendar se razlikujejo na več načinov. Razlike med grozdno analizo in faktorsko analizo so navedene spodaj

  • Cilj

Cilj grozdne in faktorske analize je različen. Cilj grozdne analize je razdelitev opazovanj na homogene in ločene skupine. Analiza faktorjev na drugi strani pojasnjuje homogenost spremenljivk, ki izhajajo iz podobnosti vrednosti.

  • Kompleksnost

Kompleksnost je še en dejavnik, na katerem se razlikujejo grozdna in faktorska analiza. Velikost podatkov drugače vpliva na analizo. Če je velikost podatkov prevelika, postane računalniško nepretrgljiva pri analizi grozdov.

  • Rešitev

Rešitev problema je bolj ali manj podobna tako v faktorski kot v grozdni analizi. Toda faktorska analiza nudi boljšo rešitev raziskovalcu v boljšem pogledu. Grozdna analiza ne daje najboljšega rezultata, saj so vsi algoritmi v analizi grozdov računalniško neučinkoviti.

  • Prijave

Faktorska analiza in analiza grozdov se na realne podatke razlikujeta. Faktorska analiza je primerna za poenostavitev zapletenih modelov. Zmanjšuje velik nabor spremenljivk na veliko manjši nabor dejavnikov. Raziskovalec lahko razvije niz hipotez in izvede faktorsko analizo, da potrdi ali zavrne te hipoteze.

Cluster analiza je primerna za razvrščanje predmetov na podlagi določenih meril. Raziskovalec lahko z analizo grozdov meri določene vidike skupine in jih razdeli na posebne kategorije.

Obstaja tudi veliko drugih razlik, ki so navedene spodaj

  • Grozdna analiza poskuša združiti primere, medtem ko faktorska analiza poskuša združiti značilnosti.
  • Grozdna analiza se uporablja za iskanje manjših skupin primerov, ki so reprezentativni za podatke kot celoto. Faktorska analiza se uporablja za iskanje manjše skupine funkcij, ki so reprezentativne za prvotne lastnosti podatkovnih nizov.
  • Najpomembnejši del analize grozdov je iskanje števila grozdov. Metode združevanja so v osnovi razdeljene na dve - Aglomerativna metoda in Metoda razdelitve. Aglomerativna metoda se začne pri vsakem primeru v lastnem grozdu in se ustavi, ko je doseženo neko merilo. Metoda razdelitve se začne z vsemi primeri v enem grozdu.
  • Faktorska analiza se uporablja za ugotovitev osnovne strukture v naboru podatkov.

Zaključek

Upam, da bi vam ta članek pomagal razumeti osnove analize grozdov in faktorskih analiz ter razlike med njima.

Sorodni tečaji: -

  1. Tečaj analize grozdov

Kategorija: