Innehåll
Klusteranalys är en metod för att organisera data i representativa grupper baserat på liknande egenskaper. Varje medlem i klustret har mer gemensamt med andra medlemmar i samma kluster än med medlemmar i de andra grupperna. Den mest representativa punkten inom gruppen kallas centroid. Vanligtvis är detta medelvärdet för värdena på datapunkterna i klustret.
Organisera uppgifterna. Om uppgifterna består av en enda variabel kan ett histogram vara lämpligt. Om två variabler är involverade, grafer du data på ett koordinatplan. Om du till exempel tittade på skolbarns höjd och vikt i ett klassrum plottar du datapunkterna för varje barn på en graf, med vikten som den horisontella axeln och höjden som den vertikala axeln. Om mer än två variabler är involverade kan matriser behövas för att visa data.
Gruppera uppgifterna i kluster. Varje kluster bör bestå av de data som ligger närmast den. I höjd- och viktexemplet grupperar du alla datapunkter som verkar vara nära varandra. Antalet kluster och huruvida varje datapunkt måste vara i ett kluster kan bero på studiens syften.
Lägg till värdena för alla medlemmar för varje kluster.Till exempel, om ett kluster av data bestod av punkterna (80, 56), (75, 53), (60, 50) och (68,54), skulle summan av värdena vara (283, 213).
Dela summan med antalet medlemmar i klustret. I exemplet ovan är 283 dividerat med fyra 70,75 och 213 dividerat med fyra är 53,25, så centroiden för klustret är (70,75, 53,25).
Plotta kluster centroids och avgöra om några punkter är närmare en centroid i en annan kluster än de är centroid av deras eget kluster. Om några punkter är närmare en annan centroid, omfördela dem till klustret som innehåller den närmare centroid.
Upprepa steg 3, 4 och 5 tills alla datapunkter finns i klustret som innehåller den centroid som de är närmast.