K-means algoritme

Imengine · do 03 feb 2011, 16:20

Bij K-means clustering wordt via een iteratieve procedure punten aan clusters toegewezen op basis van de afstand van het punt tot de clusters. Vervolgens wordt op basis van het gemiddelde van de punten die aan de cluster waren toegewezen, de positie van de cluster verplaatst, waarna opnieuw punten toegewezen worden aan de cluster op basis van afstand enzovoorts enzovoorts.

1 van de opmerkingen op dit algoritme was dat omwille van het gebruik van de Euclidische afstand, binnen elke cluster de variantie van variabele 1 gelijk moet zijn aan variabele 2 (voor het geval van 2 variabelen).

Ik begrijp echter niet hoe dit komt. Mijn redenering is dat de variantie niet kan verschillen, want als de variantie langs de ene variabele groter zou worden, dan zouden net die punten aan een andere cluster toegewezen worden, waardoor dergelijke verschillen in variantie dus net zouden moeten verdwijnen.

De cluster eindigt eigenlijk altijd in het midden van een aantal punten, het zoekt als het ware de punten op en plaats zich daar dan mooi tussen, wat maakt dat varianties net klein zouden blijven en de variantie van variabele 1 kort zou liggen bij variabele 2.

Is dit een juiste redenering? Zou iemand misschien het principe kunnen uitleggen waarom net het gebruik van die afstandsmaat zorgt dat varianties gelijk blijven.

Bedankt!

317070 · do 03 feb 2011, 17:37

Toevallig ook les gehad van Schrauwen?

Dat komt volgens mij omdat doordat de afstandmaat kwadratisch is, beide (echte) clusters waarmee je begint ook min of meer even groot moeten zijn. Stel je voor dat je een heel kleine cluster hebt, en een cluster die veel groter is. Door die kwadratische afstandsmaat kom je dan toch in de problemen? Die kleine cluster zal ook punten van de grote cluster meenemen.

Dus zal K-means clustering inderdaad voor zorgen dat de variantie van de clusters steeds ongeveer even groot is, ook al is dat niet altijd terecht.

Imengine · do 03 feb 2011, 22:32

Bedankt voor je antwoord. Ik denk dat ik het nu wel snap waarom dergelijk afstandsmaat voor die problemen zorgt (na het ook wel nog een aantal keer getekend te hebben

). De maat hanteert een soort van "zelfde" criterium voor alle datapunten in relatie tot de cluster, wat maakt dat je inderdaad uiteindelijk een concentratie van je punten krijgt rond je cluster die gelijke varianties in de hand werken. Dit zorgt dan inderdaad voor problemen als je "ware" verdeling uit twee clusters van punten zouden bestaan die een verschillende grootte hebben, met name ook omdat de clusters min of meer even groot moeten zijn (dit wist ik niet maar speelt dus wel belangrijke rol).

Geen les gehad van Schrauwen nee

K-means algoritme

K-means algoritme

ads

bol cadeaukaart - 100 euro - HiepHiep

Voor Positiviteit - Scheurkalender 2026 - Elke dag positieve energie - positieve spreuken

bol cadeaukaart - 25 euro - Voor jou

Re: K-means algoritme

ads

Western Digital Elements Portable - Externe Harde Schijf - 5 TB

50 euro PlayStation Store tegoed - PlayStation Kaart (NL)

Screenprotector - 2 stuks - Geschikt voor iPhone 17 Tempered Glass - Extra Sterk – beschermglas

Scispace is dé ai voor wetenschappers en onderzoekers. Ga naar SciSpace en profiteer van één van de beste ai's.

Re: K-means algoritme

Plaats een reactie

Contact

Community