Puzzel Puzzels
Imengine
Artikelen: 0
Berichten: 83
Lid geworden op: ma 18 dec 2006, 03:35

K-means algoritme

Bij K-means clustering wordt via een iteratieve procedure punten aan clusters toegewezen op basis van de afstand van het punt tot de clusters. Vervolgens wordt op basis van het gemiddelde van de punten die aan de cluster waren toegewezen, de positie van de cluster verplaatst, waarna opnieuw punten toegewezen worden aan de cluster op basis van afstand enzovoorts enzovoorts.

1 van de opmerkingen op dit algoritme was dat omwille van het gebruik van de Euclidische afstand, binnen elke cluster de variantie van variabele 1 gelijk moet zijn aan variabele 2 (voor het geval van 2 variabelen).

Ik begrijp echter niet hoe dit komt. Mijn redenering is dat de variantie niet kan verschillen, want als de variantie langs de ene variabele groter zou worden, dan zouden net die punten aan een andere cluster toegewezen worden, waardoor dergelijke verschillen in variantie dus net zouden moeten verdwijnen.

De cluster eindigt eigenlijk altijd in het midden van een aantal punten, het zoekt als het ware de punten op en plaats zich daar dan mooi tussen, wat maakt dat varianties net klein zouden blijven en de variantie van variabele 1 kort zou liggen bij variabele 2.

Is dit een juiste redenering? Zou iemand misschien het principe kunnen uitleggen waarom net het gebruik van die afstandsmaat zorgt dat varianties gelijk blijven.

Bedankt!

ads

Steun Sciencetalk bol cadeaukaart - 100 euro - HiepHiep

bol cadeaukaart - 100 euro - HiepHiep

Bekijk product

Steun Sciencetalk Voor Positiviteit - Scheurkalender 2026 - Elke dag positieve energie - positieve spreuken

Voor Positiviteit - Scheurkalender 2026 - Elke dag positieve energie - positieve spreuken

Bekijk product

Steun Sciencetalk bol cadeaukaart - 25 euro - Voor jou

bol cadeaukaart - 25 euro - Voor jou

Bekijk product

Gebruikersavatar
317070
Artikelen: 0
Berichten: 5.612
Lid geworden op: za 28 feb 2009, 17:05

Re: K-means algoritme

Toevallig ook les gehad van Schrauwen?

Dat komt volgens mij omdat doordat de afstandmaat kwadratisch is, beide (echte) clusters waarmee je begint ook min of meer even groot moeten zijn. Stel je voor dat je een heel kleine cluster hebt, en een cluster die veel groter is. Door die kwadratische afstandsmaat kom je dan toch in de problemen? Die kleine cluster zal ook punten van de grote cluster meenemen.

Dus zal K-means clustering inderdaad voor zorgen dat de variantie van de clusters steeds ongeveer even groot is, ook al is dat niet altijd terecht.
What it all comes down to, is that I haven't got it all figured out just yet

And I've got one hand in my pocket and the other one is giving the peace sign

-Alanis Morisette-

ads

Steun Sciencetalk Western Digital Elements Portable - Externe Harde Schijf - 5 TB

Western Digital Elements Portable - Externe Harde Schijf - 5 TB

Bekijk product

Steun Sciencetalk 50 euro PlayStation Store tegoed - PlayStation Kaart (NL)

50 euro PlayStation Store tegoed - PlayStation Kaart (NL)

Bekijk product

Steun Sciencetalk Screenprotector - 2 stuks - Geschikt voor iPhone 17 Tempered Glass - Extra Sterk – beschermglas

Screenprotector - 2 stuks - Geschikt voor iPhone 17 Tempered Glass - Extra Sterk – beschermglas

Bekijk product

Scispace Scispace

Scispace is dé ai voor wetenschappers en onderzoekers. Ga naar SciSpace en profiteer van één van de beste ai's.

Scispace

Imengine
Artikelen: 0
Berichten: 83
Lid geworden op: ma 18 dec 2006, 03:35

Re: K-means algoritme

Bedankt voor je antwoord. Ik denk dat ik het nu wel snap waarom dergelijk afstandsmaat voor die problemen zorgt (na het ook wel nog een aantal keer getekend te hebben ;) ). De maat hanteert een soort van "zelfde" criterium voor alle datapunten in relatie tot de cluster, wat maakt dat je inderdaad uiteindelijk een concentratie van je punten krijgt rond je cluster die gelijke varianties in de hand werken. Dit zorgt dan inderdaad voor problemen als je "ware" verdeling uit twee clusters van punten zouden bestaan die een verschillende grootte hebben, met name ook omdat de clusters min of meer even groot moeten zijn (dit wist ik niet maar speelt dus wel belangrijke rol).

Geen les gehad van Schrauwen nee :P

Plaats een reactie

Je mail wordt niet openbaar getoond. Het wordt enkel gebruik voor contact of notificatie vanuit het beheer.

🗨️ Wat vind jij? Stel direct je vraag of geef je mening – zonder registratie. Je reactie zet het topic weer bovenaan bij 'Laatste posts' en trekt snel nieuwe reacties aan🔥. Mocht je als vaste bezoeker willen reageren, dan kun je je ook registreren.

Bevestig dat je geen robot bent door de volgende vragen te beantwoorden.

Noor heeft 10 knikkers. Ze verliest er 4 in het gras. Hoeveel heeft ze er nog?

Antwoord: (vul een getal in)

Er zitten 5 vogels op een hek. Twee vliegen weg. Hoeveel blijven er zitten?

Antwoord: (vul een getal in)

Terug naar “Kansrekening en Statistiek”

Sciencetalk: Leer, deel of groei. Volg of geef een cursus op Sciencetalk!