Ein Distanzmaß zum Clustering gemischter Daten

Sie haben wahrscheinlich schon einmal von der Manhattan-Distanz oder der euklidischen Distanz gehört. Dabei handelt es sich um zwei verschiedene Messgrößen, die Aufschluss darüber geben, wie weit (oder wie unterschiedlich) zwei gegebene Datenpunkte voneinander entfernt sind.

Manhattan- und euklidische Distanz grafisch dargestellt. Bild vom Autor

Kurzgesagt, Euklidische Entfernung ist die kürzeste Entfernung von Punkt A zu Punkt B. Manhattan-Entfernung berechnet die Summe der absoluten Differenzen zwischen den x- und y-Koordinaten und ermittelt die Entfernung zwischen ihnen, als wären sie auf einem Raster platziert, auf dem man sich nur nach oben, unten, hyperlinks oder rechts bewegen kann (nicht diagonal).

Distanzmetriken liegen oft zugrunde Clustering-Algorithmenwie zum Beispiel Okay-Means-Clusterbildungdas die euklidische Distanz verwendet. Das ist sinnvoll, denn um Cluster zu definieren, müssen Sie zunächst wissen, wie ähnlich oder unterschiedlich zwei Datenpunkte sind (additionally wie weit sie voneinander entfernt sind).

Berechnen der Entfernung zwischen zwei Punkten

Um diesen Prozess in Aktion zu zeigen, beginne ich mit einem Beispiel unter Verwendung der euklidischen Distanz.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert