Klastrianalüüs on statistiline tehnika, mida kasutatakse, et teha kindlaks, kuidas erinevaid üksusi - näiteks inimesi, rühmi või ühiskonda - saaks nende ühiste omaduste tõttu rühmitada. Tuntud ka kui klasterdamine, on see uuriv andmeanalüüsi tööriist, mille eesmärk on sortida erinevad objektid rühmadesse nii, et kui kui nad kuuluvad samasse rühma, on neil maksimaalne seotusaste ja kui nad ei kuulu samasse rühma, on nende seotusaste minimaalne. Erinevalt mõnest teisest statistilised tehnikad, ei vaja klastrianalüüsiga katmata struktuurid selgitust ega tõlgendust - see avastab andmetes struktuuri, selgitamata nende olemasolu.
Mis on klasterdamine?
Klastrid on olemas meie igapäevaelu peaaegu kõigis aspektides. Võtke näiteks toidupoes olevaid esemeid. Erinevates tüüpi esemeid kuvatakse alati samades või läheduses asuvates kohtades - liha, köögiviljad, sooda, teravili, paberitooted jne. Teadlased soovivad sageli sama teha andmetega ja rühmitada objekte või subjekte klastritesse, mis on mõistlikud.
Ühiskonnaõpetuse eeskujuks oletagem, et vaatame riike ja tahame need rühmitada klastritesse selliste tunnuste põhjal nagu tööjaotus, sõjavägi, tehnoloogia või haritud elanikkond. Leiame, et Suurbritannial, Jaapanil, Prantsusmaal, Saksamaal ja USA-l on sarnased omadused ja nad koonduksid ühte rühma. Uganda, Nicaragua ja Pakistan oleks samuti koondatud eri klastrisse, kuna neil on erinevad tunnusjooned, sealhulgas madal rikkuse tase, lihtsam tööjaotus, suhteliselt ebastabiilsed ja ebademokraatlikud poliitilised institutsioonid ning madal tehnoloogiline tase areng.
Klastrianalüüsi kasutatakse tavaliselt uurimistöö ettevalmistavas etapis, kui teadlasel seda pole eelnevalt välja mõeldud hüpoteesid. Tavaliselt pole see ainus kasutatav statistiline meetod, vaid seda tehakse projekti varases staadiumis ülejäänud analüüsi suunamiseks. Sel põhjusel pole olulisuse testimine tavaliselt asjakohane ega asjakohane.
Klastrianalüüsi on mitu erinevat tüüpi. Kaks kõige sagedamini kasutatavat on K-vahendite rühmitus ja hierarhiline rühmitus.
K-tähendab klastrit
K-vahendite rühmitamine käsitleb andmetes leiduvaid vaatlusi objektidena, millel on asukohad ja kaugused üksteisest (pange tähele, et klastrimisel kasutatavad kaugused ei esinda sageli ruumilisi vahemaid). See jagab objektid K-s üksteist välistavateks klastriteks, nii et igas klastris olevad objektid on sellised üksteise lähedal võimalikult lähedal ja samal ajal võimalikult kaugel teiste klastrite objektidest. Seejärel iseloomustab igat klastrit oma keskmine või keskpunkt.
Hierarhiline klasterdamine
Hierarhiline rühmitamine on viis andmete grupeerimise samaaegseks uurimiseks erinevates mõõtkavades ja vahemaades. See loob selle, luues erineva tasemega klastripuu. Erinevalt K-tähendab klasterdamist, ei ole puu üks klastrite komplekt. Pigem on puu mitmetasandiline hierarhia, kus ühe taseme klastrid ühendatakse klastriteks järgmisel kõrgemal tasemel. Kasutatav algoritm algab iga juhtumi või muutujaga eraldi klastris ja ühendab seejärel klastrid, kuni ainult üks on alles. See võimaldab teadlasel otsustada, milline klastritase on tema uurimistöö jaoks kõige sobivam.
Klastrianalüüsi teostamine
Enamik statistika tarkvaraprogrammid oskab teostada klastrianalüüsi. Valige SPSS-is analüüsima siis menüüst klassifitseerima ja klastrianalüüs. SAS-is proc klaster funktsiooni saab kasutada.
Uuendas Nicki Lisa Cole, Ph.