Bij K-means clustering wordt via een iteratieve procedure punten aan clusters toegewezen op basis van de afstand van het punt tot de clusters. Vervolgens wordt op basis van het gemiddelde van de punten die aan de cluster waren toegewezen, de positie van de cluster verplaatst, waarna opnieuw punten toegewezen worden aan de cluster op basis van afstand enzovoorts enzovoorts.
1 van de opmerkingen op dit algoritme was dat omwille van het gebruik van de Euclidische afstand, binnen elke cluster de variantie van variabele 1 gelijk moet zijn aan variabele 2 (voor het geval van 2 variabelen).
Ik begrijp echter niet hoe dit komt. Mijn redenering is dat de variantie niet kan verschillen, want als de variantie langs de ene variabele groter zou worden, dan zouden net die punten aan een andere cluster toegewezen worden, waardoor dergelijke verschillen in variantie dus net zouden moeten verdwijnen.
De cluster eindigt eigenlijk altijd in het midden van een aantal punten, het zoekt als het ware de punten op en plaats zich daar dan mooi tussen, wat maakt dat varianties net klein zouden blijven en de variantie van variabele 1 kort zou liggen bij variabele 2.
Is dit een juiste redenering? Zou iemand misschien het principe kunnen uitleggen waarom net het gebruik van die afstandsmaat zorgt dat varianties gelijk blijven.
Bedankt!
Puzzels