Bei der Zubereitung von Modellen ist es ein bisschen wie beim Kochen: zu wenig Gewürze und das Gericht ist langweilig, zu viel und es ist überwältigend. Das Ziel? Diese perfekte Stability – gerade genug Komplexität, um den Geschmack der Daten einzufangen, aber nicht so viel, dass sie überwältigend wäre.

In diesem Beitrag gehen wir auf zwei der häufigsten Fallstricke bei der Modellentwicklung ein: Überanpassung Und Unteranpassung. Unabhängig davon, ob Sie Ihr erstes Modell trainieren oder Ihr hundertstes Modell optimieren, ist die Kontrolle dieser Konzepte der Schlüssel zum Aufbau von Modellen, die tatsächlich in der realen Welt funktionieren.

Überanpassung

Was ist Überanpassung?

Überanpassung ist ein häufiges Drawback bei datenwissenschaftlichen Modellen. Dies geschieht, wenn das Modell zu intestine aus trainierten Daten lernt, das heißt, es lernt aus Mustern, die für trainierte Daten und Rauschen spezifisch sind. Daher ist es nicht möglich, auf der Grundlage unsichtbarer Daten gute Vorhersagen zu treffen.

Warum ist Überanpassung ein Drawback?

  1. Schlechte Leistung: Das Modell kann nicht intestine verallgemeinern. Die während des Trainings erkannten Muster sind nicht auf die übrigen Daten anwendbar. Aufgrund der Trainingsfehler gewinnt man den Eindruck, dass das Modell hervorragend funktioniert, obwohl die Take a look at- oder realen Fehler tatsächlich nicht so optimistisch sind.
  2. Vorhersagen mit hoher Varianz: Die Modellleistung ist instabil und die Vorhersagen sind nicht zuverlässig. Kleine Anpassungen der Daten führen zu einer hohen Varianz bei den getroffenen Vorhersagen.
  3. Ein komplexes und teures Modell trainieren: Das Coaching und der Aufbau eines komplexen Modells in der Produktion ist eine teure und ressourcenintensive Aufgabe. Wenn ein einfacheres Modell genauso intestine funktioniert, ist es effizienter, es stattdessen zu verwenden.
  4. Risiko, das Vertrauen der Unternehmen zu verlieren: Datenwissenschaftler, die beim Experimentieren mit neuen Modellen zu optimistisch sind, versprechen den Geschäftsinteressenten möglicherweise zu viele Ergebnisse. Wenn eine Überanpassung erst nach der Präsentation des Modells entdeckt wird, kann dies die Glaubwürdigkeit erheblich schädigen und es schwierig machen, das Vertrauen in die Zuverlässigkeit des Modells wiederzugewinnen.

So erkennen Sie eine Überanpassung

  1. Kreuzvalidierung: Bei der Kreuzvalidierung werden die Eingabedaten in mehrere Faltungen (Trainings- und Testdatensätze) aufgeteilt. Unterschiedliche Faltungen der Eingabedaten sollten zu ähnlichen Testfehlerergebnissen führen. Eine große Leistungslücke über die Falten hinweg kann auf Modellinstabilität oder Datenlecks hinweisen, was beides Symptome einer Überanpassung sein können.
  2. Verfolgen Sie die Trainings-, Take a look at- und Generalisierungsfehler. Der Fehler beim Einsatz des Modells (Generalisierungsfehler) sollte nicht wesentlich von den Ihnen bereits bekannten Fehlern abweichen. Wenn Sie noch einen Schritt weiter gehen möchten, sollten Sie die Implementierung einer Überwachungswarnung in Betracht ziehen, wenn die Leistung des bereitgestellten Modells erheblich vom Validierungssatzfehler abweicht.

So mildern/verhindern Sie eine Überanpassung

  1. Options entfernen: Zu viele Options könnten das Modell zu sehr „leiten“ und so zu einem Modell führen, das sich nicht intestine verallgemeinern lässt.
  2. Trainingsdaten erhöhen: Durch die Bereitstellung von mehr Beispielen, aus denen man lernen kann, lernt das Modell, besser zu verallgemeinern, und ist weniger empfindlich gegenüber Ausreißern und Rauschen.
  3. Erhöhen Sie die Regularisierung: Regularisierungstechniken helfen, indem sie die bereits überhöhten Koeffizienten bestrafen. Dadurch wird verhindert, dass das Modell zu genau an die Daten angepasst wird.
  4. Hyperparameter anpassen: Bestimmte Hyperparameter, die zu stark angepasst werden, können dazu führen, dass sich das Modell nicht intestine verallgemeinern lässt.

Unteranpassung

Was ist Unteranpassung?

Eine Unteranpassung tritt auf, wenn die Artwork des Modells oder die Funktionen zu einfach sind, um die zugrunde liegenden Daten intestine zu erfassen. Dies führt auch zu schlechten Vorhersagen in unsichtbaren Daten.

Warum ist Unteranpassung problematisch?

  1. Schlechte Leistung: Das Modell schneidet bei Trainingsdaten schlecht ab, daher auch bei Take a look at- und realen Daten schlecht.
  2. Vorhersagen mit hoher Verzerrung: Das Modell ist nicht in der Lage, zuverlässige Vorhersagen zu treffen.

So erkennen Sie eine Unteranpassung

  1. Trainings- und Testfehler werden gering sein.
  2. Der Generalisierungsfehler ist hoch und liegt möglicherweise nahe am Trainingsfehler.

So beheben Sie eine Unteranpassung

  1. Funktionen verbessern: Führen Sie neue Funktionen ein oder fügen Sie ausgefeiltere Funktionen hinzu (z. B. Interaktionseffekte/Polynomterme/Saisonalitätsterme hinzufügen), die komplexere Muster in den zugrunde liegenden Daten erfassen
  2. Trainingsdaten erhöhen: Durch die Bereitstellung von mehr Beispielen, aus denen man lernen kann, lernt das Modell, besser zu verallgemeinern, und ist weniger empfindlich gegenüber Ausreißern und Rauschen.
  3. Reduzieren Sie die Regularisierungsleistung: Wenn Sie eine zu leistungsstarke Regularisierungstechnik anwenden, werden die Options zu einheitlich und das Modell priorisiert keine Options, wodurch es daran gehindert wird, wichtige Muster zu lernen.
  4. Hyperparameter anpassen: Ein an sich komplexes Modell mit schlechten Hyperparametern ist möglicherweise nicht in der Lage, die gesamte Komplexität zu erfassen. Es kann sinnvoll sein, der Anpassung mehr Aufmerksamkeit zu schenken (z. B. das Hinzufügen weiterer Bäume zu einem zufälligen Wald).
  5. Wenn alle anderen Optionen das zugrunde liegende Drawback nicht beheben, könnte es sich lohnen, das Modell zu verwerfen und durch ein Modell zu ersetzen, das komplexere Muster in Daten erfassen kann.

Zusammenfassung

Maschinelles Lernen ist keine Zauberei, es ist ein Balanceakt zwischen zu viel und zu wenig. Passen Sie Ihr Modell zu sehr an, wird es zu einem Perfektionisten, der mit neuen Situationen nicht umgehen kann. Unterpassen Sie es nicht, und es geht völlig am Kern der Sache vorbei.

Die besten Fashions leben im Candy Spot: Intestine verallgemeinern, genug lernen, aber nicht zu viel. Indem Sie Über- und Unteranpassung verstehen und bewältigen, verbessern Sie nicht nur die Kennzahlen, Sie bauen auch Vertrauen auf, reduzieren Risiken und schaffen Lösungen, die über den Trainingssatz hinaus Bestand haben.

Ressourcen

(1) https://medium.com/@SyedAbbasT/what-is-overfitting-underfitting-regularization-371b0afa1a2c

(2) https://www.datacamp.com/weblog/what-is-overfitting

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert