Konzentrieren wir uns nun auf die interne und externe Validierung. Im Folgenden liste ich einige Metriken meiner Wahl mit Hyperlinks auf, wo Sie ihre Definitionen und Formeln im Element nachverfolgen können.
Da ich nicht auf die Formeln für diese Kennzahlen eingehe, wird den Lesern empfohlen, sie über die unten angegebenen Hyperlinks herauszufinden.
A. Für die interne Validierung verwendete Metriken
Ziel der internen Validierung ist es, die Qualität der Clusterstruktur ausschließlich auf Foundation des gegebenen Datensatzes festzustellen.
Klassifizierung der internen Bewertungsmethoden:
Interne Validierungsmethoden können entsprechend den Klassen von Clusteringmethoden kategorisiert werden. Eine typische Klassifizierung des Clusterings kann wie folgt formuliert werden:
- Partitionierungsmethoden (z. B. Okay-Means),
- Hierarchische Methoden (z. B. Agglomeratives Clustering),
- Dichtebasierte Methoden (z. B. DBSCAN) und
- der Relaxation
Hier behandele ich die ersten beiden: Partitionierungsclustering und hierarchisches Clustering.
a) Partitionierungsmethoden: zB Okay-means
Für Partitionierungsmethoden gibt es drei grundlegende Bewertungsmaßstäbe: Kohäsion, Trennung und deren Hybrid.
Zusammenhalt:
Die Kohäsion bewertet die Nähe der Datenstruktur innerhalb des Clusters. Je niedriger der Wert der Kohäsionswerte, desto besser ist die Qualität der Cluster. Ein Beispiel für Kohäsionswerte ist:
- SSW: Summe der quadrierten Fehler innerhalb des Clusters.
Trennung:
Trennung ist eine Interclustermetrik und bewertet die Streuung der Intercluster-Datenstruktur. Die Idee hinter einer Trennungsmetrik besteht darin, den Abstand zwischen Clustern zu maximieren. Ein Beispiel für Kohäsionsmetriken ist:
- SSB: Summe der quadrierten Fehler zwischen Clustern.
Hybrid aus Zusammenhalt und Trennung:
Der Hybridtyp quantifiziert den Grad der Trennung und Kohäsion in einer einzigen Metrik. Hier ist eine Liste mit Beispielen:
ich) Der Silhouettenkoeffizient: im Bereich von (-1, 1)
Diese Metrik ist ein kinfolk Maß für die Distanz zwischen Clustern und benachbarten Clustern.
Hier ist eine allgemeine Interpretation der Metrik:
- Der beste Wert: 1
- Der schlechteste Wert: -1.
- Werte nahe 0: überlappende Cluster.
- Destructive Werte: Hohe Wahrscheinlichkeit, dass eine Probe einem falschen Cluster zugeordnet wird.
Hier ist ein Anwendungsbeispiel für die Metrik: https://www.geeksforgeeks.org/silhouette-index-cluster-validity-index-set-2/?ref=ml_lbp
ii) Der Calisnki-Harabasz-Koeffizient:
Diese Metrik wird auch als Varianzverhältniskriterium bezeichnet und misst das Verhältnis der Summe der Streuung zwischen den Clustern und der Streuung innerhalb der Cluster für alle Cluster.
Bei einer gegebenen Clusterzuordnung gilt: Je höher der Wert der Metrik, desto besser ist das Clusterergebnis: Denn ein höherer Wert zeigt an, dass die resultierenden Cluster kompakt und intestine getrennt sind.
Hier ist ein Anwendungsbeispiel für die Metrik: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp
iii) Dann Index:
Bei einer gegebenen Clusterzuordnung weist ein höherer Dunn-Index auf eine bessere Clusterung hin.
Hier ist ein Anwendungsbeispiel für die Metrik: https://www.geeksforgeeks.org/dunn-index-and-db-index-cluster-validity-indices-set-1/?ref=ml_lbp
Die Metrik misst das Verhältnis der Ähnlichkeit innerhalb eines Clusters zur Ähnlichkeit zwischen den Clustern. Logischerweise deutet eine höhere Metrik auf eine dichtere Struktur innerhalb des Clusters und eine stärker getrennte Struktur zwischen den Clustern und damit auf ein besseres Clusterergebnis hin.
Hier ist ein Anwendungsbeispiel für die Metrik: https://www.geeksforgeeks.org/davies-bouldin-index/
b) Hierarchische Methoden: zB Agglomerate Clustering Algorithmus
i) Menschliche Beurteilung basierend auf der visuellen Darstellung des Dendrogramms.
Obwohl Palacio-Niño und Berzal kein menschliches Urteil einbezogen haben, handelt es sich um eines der nützlichsten Instruments zur internen Validierung für hierarchisches Clustering auf Foundation von Dendrogrammen.
Stattdessen listeten die Co-Autoren die folgenden zwei Korrelationskoeffizientenmetriken auf, die auf die Auswertung der Ergebnisse einer hierarchischen Clusterung spezialisiert sind.
Bei beiden zeigen höhere Werte bessere Ergebnisse an. Beide nehmen Werte im Bereich (-1, 1) an.
ii) Der kophenetische Korrelationskoeffizient (CPCC): (-1, 1)
Es misst die Distanz zwischen Beobachtungen in der hierarchischen Clusterung, die durch die Verknüpfung definiert wird.
iii) Hubert-Statistik: (-1, 1)
Ein höherer Hubert-Wert entspricht einer besseren Datenclusterung.
c) Potenzialkategorie: Selbstüberwachtes Lernen
Selbstüberwachtes Lernen kann Merkmalsdarstellungen generieren, die zum Clustering verwendet werden können. Selbstüberwachtes Lernen hat keine expliziten Beschriftungen im Datensatz, sondern verwendet die Eingabedaten selbst als Beschriftungen zum Lernen. Palacio-Niño & Berzal haben in ihrem Vorschlag in diesem Abschnitt kein selbstüberwachtes Framework wie Autoencoder und GANs einbezogen. Nun, sie sind per se kein Clustering-Algorithmus. Trotzdem werde ich diesen speziellen Bereich für meine Anmerkung offen lassen. Die Zeit wird zeigen, ob aus diesem speziellen Bereich irgendwelche spezialisierten Metriken hervorgehen.
Bevor wir den Abschnitt zur internen Validierung abschließen, hier ein Vorbehalt von Gere (2023).
„Die Wahl des richtigen hierarchischen Clusteralgorithmus und der richtigen Anzahl von Clustern ist immer eine Schlüsselfrage … . In vielen Fällen veröffentlichen Forscher keine Gründe, warum sie ein bestimmtes Distanzmaß und eine bestimmte Verknüpfungsregel zusammen mit Clusternummern gewählt haben. Der Grund dafür könnte sein, dass unterschiedliche Clustervalidierungs- und -vergleichstechniken in den meisten Fällen widersprüchliche Ergebnisse liefern. … Die Ergebnisse der Validierungsmethoden weichen voneinander ab, was darauf hindeutet, dass das Clustering stark vom betreffenden Datensatz abhängt. Obwohl Wards Methode eine sichere Wahl zu sein scheint, wird dringend empfohlen, verschiedene Clusterkombinationen zu testen und zu validieren.”
Ja, es ist eine schwierige Aufgabe.
Fahren wir nun mit der externen Validierung fort.