Hvordan finne Centroid i en Clustering-analyse

Posted on
Forfatter: Judy Howell
Opprettelsesdato: 1 Juli 2021
Oppdater Dato: 14 November 2024
Anonim
Thorium.
Video: Thorium.

Innhold

Cluster-analyse er en metode for å organisere data i representative grupper basert på lignende egenskaper. Hvert medlem av klyngen har mer til felles med andre medlemmer av samme klynge enn med medlemmer av de andre gruppene. Det mest representative punktet i gruppen kalles centroid. Vanligvis er dette gjennomsnittet av verdiene til datapunktene i klyngen.

    Organiser dataene. Hvis dataene består av en enkelt variabel, kan et histogram være passende. Hvis to variabler er involvert, grafer du dataene på et koordinatplan. Hvis du for eksempel så på høyden og vekten til skolebarn i et klasserom, plott datapunktene for hvert barn på en graf, med vekten den horisontale aksen og høyden som den vertikale aksen. Hvis mer enn to variabler er involvert, kan det være nødvendig med matriser for å vise dataene.

    Gruppér dataene i klynger. Hver klynge skal bestå av datapunktene nærmest. I høyden og vekteksemplet grupperer du alle datapunkter som ser ut til å være i nærheten. Antall klynger, og om hvert punkt med data må være i en klynge, kan avhenge av formålet med studien.

    Legg til verdiene til alle medlemmer for hver klynge.For eksempel, hvis en klynge av data besto av punktene (80, 56), (75, 53), (60, 50) og (68,54), ville summen av verdiene være (283, 213).

    Del totalen med antall medlemmer i klyngen. I eksemplet ovenfor er 283 delt på fire 70,75, og 213 delt på fire er 53,25, så klyngen på klyngen er (70,75, 53,25).

    Plott klyngesenterroider og bestem om noen punkter er nærmere en centroid av en annen klynge enn de er centroiden til sin egen klynge. Hvis noen punkter er nærmere en annen centroid, fordeler du dem til klyngen som inneholder den nærmere centroid.

    Gjenta trinn 3, 4 og 5 til alle datapunktene er i klyngen som inneholder den centroid som de er nærmest.

    Tips