Sie hatten ein Downside mit der Dateninterpretation und haben es mit Clustering versucht. Und jetzt haben Sie ein Cluster-Interpretationsproblem! Es bestand der Verdacht, dass die Daten Muster enthalten könnten. Vernünftigerweise hofften Sie, dass das Hinzufügen einer Struktur durch unüberwachtes Lernen zu einigen Erkenntnissen führen würde. Cluster sind das Mittel der Wahl, um Strukturen zu finden. Und so haben Sie sich auf die Reise gemacht. Sie geben viel Geld für Laptop aus. Sie stecken viel Schweiß in das Herumspielen mit Cluster-Tuning-Parametern. Nur um sicherzugehen, probieren Sie ein paar Algorithmen aus. Aber am Ende des Tages haben Sie Regenbogendiagramme mit Cluster-Daten, die vielleicht eine Bedeutung haben – nur vielleicht – wenn Sie nur genau genug hinschauen. Sie gehen mit dem unbehaglichen Gefühl nach Hause, dass alles umsonst battle. Leider ist das viel zu oft der Fall. Aber warum sollte das so sein?
Wenn ein Clustering-Projekt keinen Mehrwert bringt, hat das oft mehrere Ursachen: mangelndes Verständnis der Daten, zu wenig Aufmerksamkeit für das gewünschte Ergebnis und falsche Werkzeugwahl. Wir werden diese Punkte der Reihe nach durchgehen. Um die Diskussion anzuregen, ist es aufschlussreich, die Gründe für die Existenz von Clustering-Techniken zu verstehen. Zu diesem Zweck werden wir uns ansehen, was Clustering ist und einige der Probleme, die zur Entwicklung von Clustering-Techniken geführt haben.