Eine große Freude daran, dass ich schon so lange im Bereich des maschinellen Lernens tätig bin, ist die Möglichkeit, immer etwas Neues zu lernen. Dass etwas Neues entweder ein neues Werkzeug oder eine neue Methodik sein kann (angesichts der rasanten Entwicklung in der maschinellen Lernlandschaft gibt es nie einen Mangel daran), aber es kann auch die Entdeckung fehlerhafter Prozesse in unserer Arbeit sein, die uns einfach nie bewusst waren von.
Einige davon können recht undurchsichtig und auf den ersten Blick schwer zu erkennen sein. Wenn sich diese fehlerhaften Prozesse tatsächlich in Ihre Modellentwicklung einschleichen, besteht eine gute Probability, dass dadurch die Vorhersagekraft und damit die Zuverlässigkeit und letztlich auch die Anwendbarkeit beeinträchtigt werden.
In diesem Artikel, der den Beginn einer Reihe darstellt, die sich mit häufigen Fallstricken beim maschinellen Lernen befasst, konzentrieren wir uns auf drei Fehler bei der Datenverarbeitung, die sowohl während der Vorverarbeitungsphase als auch während der Modellierungsphase auftreten können:
- Numerische Bezeichner als Merkmale verwenden
- Zufällige Partitionierung statt Gruppenpartitionierung
- Einbeziehen von Merkmalswerten mit unzureichenden Beobachtungen