Ensembles von Ensembles von Ensembles: Ein Leitfaden zum Stapeln

Maschinelles Lernen ist ein hyperkompetitives Ensemble-Engineering-Spiel. Der Unterschied zwischen einer leichten Verbesserung der Rundenzeit oder einem Verlustergebnis lässt sich an den Millionen Greenback messen, die ein Staff einbringt, wenn es alles tut, um der Beste zu sein. Nicht nur jede einzelne Komponente des Techniques muss perfekt sein, sondern auch die Artwork und Weise, wie alles zusammengefügt wird, muss perfekt sein.

Der Stand der Technik

Gradientenverstärkte Modelle waren in der Vergangenheit die wettbewerbsfähigsten Modelle für tabellarische und Zeitreihenvorhersageprobleme. Hierbei handelt es sich um Ensemble-Methoden, da sie die Ergebnisse mehrerer Basisschätzer kombinieren, um eine endgültige Antwort zu erhalten, die besser ist als jede einzelne Vorhersage allein. Doch der Stand der Technik beginnt sich zu ändern. Vorab trainierte Modelle wie TabPFN für tabellarische Daten und Chronos für Zeitreihen fangen an, mit Gradienten-verstärkten Modellen übereinzustimmen oder diese zu übertreffen bestimmte Maßstäbe. In gewisser Weise handelt es sich dabei auch um Ensemble-Methoden, mit dem Unterschied, dass sie nicht viele Vorhersagen zusammenfassen, sondern ein Ensemble der Daten sind, aus denen sie lernen. Die dahinter stehende Instinct ist allgemein anwendbar und kann weiter ausgebaut werden.

Mittlerweile gibt es eine Scenario, in der zwei völlig unterschiedliche Ansätze um den Spitzenplatz in den ML-Bestenlisten kämpfen, dicht gefolgt von Dutzenden anderer Architekturen, die ihre eigenen Stärken und Schwächen haben. Da sie alle auf unterschiedliche Weise lernen und auch aus unterschiedlichen Daten lernen, können sie alle zusammen in einem zusätzlichen Ensemble verwendet werden, das einen Großteil der Stärken beibehält und gleichzeitig einen Großteil der Schwächen beseitigt. Bei richtiger Umsetzung führt dies quick immer zu einer besseren Leistung und einem robusteren Modell.

Behauptungen und Annahmen

Dieselben Strategien, mit denen ermittelt werden kann, welche Daten für die Erstellung einer bestimmten Vorhersage wichtig sind, können auch zur Bestimmung der Modelle verwendet werden, die für die Erstellung einer bestimmten Vorhersage wichtig sind. Genauso wie eine Kombination von Basisschätzungen in Modellen mit Gradientenverstärkung besser ist als eine einzelne Schätzung, ist eine Kombination von Modellen besser als eine.

Im weiteren Verlauf dieser Diskussion wird davon ausgegangen, dass im Modellierungsprozess alle korrekten Daten verwendet werden. Mit anderen Worten: Zum Zeitpunkt t (oder während der Inferenz) sind alle relevanten Informationen bekannt. In der Datenwissenschaft ist dies keine triviale Annahme, und wenn man sie fälschlicherweise anwendet, werden die hier aufgestellten Behauptungen weitgehend entkräftet. Wie sich herausstellt, besteht die meiste Arbeit in der Datenwissenschaft lediglich darin, diese Annahme mit Daten im richtigen Format zu erfüllen. Beachten Sie außerdem, dass die den Modellen ausgesetzten Kovariaten/Merkmale nicht festgelegt sind, da unterschiedliche Architekturen mit unterschiedlichen Daten besser zurechtkommen und bestimmte Datentypen möglicherweise überhaupt nicht verarbeiten können (dies ist ein besonders relevanter Punkt für vorab trainierte Hybride aus Sprache und numerischen Modellen, die sich noch in der frühen Entwicklung befinden).

Mehrschichtige Stapelung

Ein verallgemeinerter Ansatz, der für Zeitreihen- oder tabellarische Regressions-/Klassifizierungsprobleme geändert werden kann

Schicht 1

Es gibt viele Möglichkeiten, Ensemble-Methoden zu erstellen. Am sinnvollsten ist es, diese Schritte in Ebenen zu organisieren. Die erste Ebene ist die Sammlung von Basismodellen (z. B. CatBoost, MLPs, TabPFN usw.).

Bei tabellarischen Problemen können diese mit Bootstrap-Aggregation trainiert werden, wobei neue Trainingssätze durch Stichproben aus dem Basistrainingssatz mit Ersetzung erstellt werden. Anschließend werden einzelne Modelle für jeden neuen Satz trainiert und ihre Vorhersagen gemittelt. Für jedes dieser Modelle kann auch eine Hyperparameteroptimierung durchgeführt werden, allerdings ist dies viel rechenintensiver, da jedes Modell für jede Probe (oder jeden „Beutel“) viele Male neu trainiert wird. Um die Trainingszeit zu verkürzen, kann ein Hyperparameter-Optimierungsplaner wie Optuna verwendet werden, sodass Modellläufe, die nicht intestine laufen, abgebrochen werden und ein lokales Minimal mithilfe einiger statistischer Optimierungstricks schneller ermittelt werden kann. Alternativ können für jedes Modell mehrere Hyperparameter-Voreinstellungen verwendet werden, je nachdem, was für dieses bestimmte Modell in ähnlichen Datensätzen tendenziell intestine funktioniert. Die verschiedenen Modelle mit unterschiedlichen Voreinstellungen können entweder gemittelt werden, um ein Modell „darzustellen“, oder sie können als unterschiedliche Versionen des Modells registriert und in der nächsten Ebene verwendet werden.

Bei der Vorhersage von Zeitreihen wird das traditionelle Bootstrapping zum Downside. Da die Zeitdimension berücksichtigt werden muss, kann ein Prozess diese Daten nicht zufällig aufteilen und erneut abtasten, um neue Trainingssätze zu erstellen. Stattdessen sollte die Kreuzvalidierung mit einem rollierenden Zeitfenster erfolgen. Für diesen Prozess wird ein neues Modell erstellt, um Vorhersagen in einem Validierungsfenster mit Zeitstempeln zu treffen, die genau denen im Trainingssatz entsprechen. Nach dem Coaching und der Auswertung wird dieses Validierungsfenster zum Trainingssatz hinzugefügt und der Vorgang wird für die nächste Zeitspanne (das nächste Validierungsfenster) wiederholt. Dadurch erhalten Sie eine gute Vorstellung davon, wie intestine das Modell im Laufe der Zeit funktionieren wird, allerdings werden die Modelle in diesem Schritt normalerweise nicht zusammengefasst. Da aktuelle Zeitreihendaten häufig am aussagekräftigsten sind, wird für die Schlussfolgerung nur das im letzten Schritt trainierte Modell verwendet. Die Out-of-Fold-Vorhersagen aus vorherigen Fenstern können jedoch weiterhin in der nächsten Ebene verwendet werden.

Schicht 2

Nach dem Coaching der Basismodelle stehen Bewertungsmetriken für den Trainingssatz und den Validierungssatz zur Verfügung. Bei allen Zwischenschritten sollte der Testsatz komplett ignoriert werden. In Schicht 2 können neue Strategien eingesetzt werden, da die Modellleistung bekannt ist und (hoffentlich) bereits solide Vorhersagen getroffen wurden.

Für tabellarische Probleme kann eine zweite Runde von Bagged-Modellen trainiert werden, bei der die Vorhersagen der Layer-1-Modelle als Options hinzugefügt werden. Falls ein Basismodell bei der Validierung schlecht abschneidet, kann es aus diesem Schritt entfernt werden.

In Zeitreihen kann die gleiche Strategie nicht angewendet werden, da die Schicht-1-Modelle nie Vorhersagen für den gesamten Trainingssatz machten. Dies ist nicht möglich, da keine Daten zum Trainieren vorhanden wären, um Vorhersagen für den Beginn des Trainingssatzes zu erhalten, und ein Modell, das auf irgendetwas danach trainiert wurde, nicht verwendet werden kann, um die Vorhersagen zu erhalten, die zur Verwendung als Options im Modell erforderlich sind. Eine Einschränkung besteht darin, dass, wenn die Architektur des Schicht-2-Modells fehlende Werte verarbeiten kann oder nur eine Teilmenge des Trainingssatzes mit Vorhersagen verwendet wird, auf dieser Schicht ein vollständiges erneutes Coaching (auf Trainingsdaten und Schicht-1-Modellvorhersagen) durchgeführt werden kann. Obwohl dies möglich und möglicherweise nützlich ist, gibt es elegantere Ansätze.

Da die Modellleistung bekannt ist und Vorhersagen getroffen wurden, kann eine Kombination aus Basismodellvorhersagen als neue Prädiktoren verwendet werden. Es gibt mehrere Möglichkeiten, dies zu tun:

Einfach durchschnittlich alle
Gewichten Sie jeden Vorhersagesatz anhand seiner Validierungsleistung und mitteln Sie sie
Nehmen Sie eine lineare Kombination aller Vorhersagen, die den Verlust mit gewöhnlichen kleinsten Quadraten minimiert
Erstellen Sie ein gieriges Ensemble, das mit dem Modell mit der besten Leistung beginnt und langsam die Gewichtung anderer Modelle erhöht, bis sich die Leistung nicht mehr verbessert
Wenn das nicht ausreicht, kann ein ganzes Modell ausschließlich auf den Vorhersagen der Basismodelle trainiert werden (dies ist nur dann wirklich sinnvoll, wenn es eine ausreichend große Anzahl von Out-of-Fold-Vorhersagen gibt).

Beachten Sie, dass die Validierungsfenster von Schicht 1 zum Trainingssatz von Schicht 2 werden, sodass nur der letzte Validierungssatz von Schicht 1 als Validierungssatz von Schicht 2 verwendet wird. Anstatt herauszufinden, welcher einzelne Ansatz der beste ist, sollte Schicht 2 sie alle ausprobieren, da diese Schritte recheneffizient sind.

Schicht 3

Es ist Zeit, weitere Schichten zu stapeln … Der tabellarische Ansatz lieferte Vorhersagen aus einer weiteren Runde verpackter Modelle, und der Zeitreihenansatz lieferte die Vorhersagen verschiedener Zusammenstellungsstrategien. Schicht 3 verwendet einfach eine der Ensemble-Strategien, die in den Zeitreihen-Ensembles der Schicht 2 erwähnt werden, um das endgültige Metamodell zu erstellen. Dies ist das Modell, das zur Bewertung des Testsatzes verwendet werden sollte. Es empfiehlt sich jedoch zu überprüfen, ob es die Basismodelle tatsächlich übertrifft. Das endgültige Modell sollte quick immer gewinnen und reagiert weniger empfindlich auf schlechte Vorhersagen eines einzelnen Modells, da die schlechten Vorhersagen herabgewichtet werden können und tendenziell gemittelt werden. Wenn umgekehrt ein Modell ein Muster erkennt, das die anderen nicht erkennen, kann der mehrschichtige Stapel lernen, diese Vorhersagen zu verstärken. Die einzigen Fälle, in denen dies wirkungslos ist, sind, wenn ein Modell immer auf der ganzen Linie besser ist, was ziemlich selten vorkommt, oder wenn ein oder mehrere Basismodelle ziemlich schlecht sind. In diesem Fall sollten sie vollständig entfernt werden.

Hat sich das alles gelohnt?

Wahrscheinlich. Der Nachteil dabei ist, dass das Coaching vieler Modelle statt eines erforderlich ist. Wenn die Datensätze ausreichend groß sind, kann die Trainings- und Inferenzzeit für bestimmte Anwendungen schnell zu einer Einschränkung werden. Das Gegenargument hierzu ist, dass der Prozess hochgradig parallelisierbar ist und bei Bedarf effiziente Algorithmen anstelle von Deep Studying verwendet werden können. LightGBM ist um eine Größenordnung schneller als Deep Studying und oft immer noch wettbewerbsfähig.

Diese Philosophie der Zusammenstellung von Ensembles beim maschinellen Lernen wurde populär gemacht und vollständig übernommen AutoGluon. Tatsächlich ist es der De-facto-Customary für ihr AutoML-Angebot, und ihr Staff hat sowohl zur Open-Supply-Group als auch zur neuesten Forschung auf diesem Gebiet einen großen Beitrag geleistet. Da die Pre-Coaching-Grenze für Tabellen-/Zeitreihentransformatoren noch nicht vollständig erforscht ist, ist davon auszugehen, dass die zusätzliche Vielfalt künftiger Modelle diese Strategie weiter stärken wird.

Es gibt gute Gründe zu der Annahme, dass sich diese Philosophie weiterhin durchsetzen wird, wie sie es auch in vielen anderen Bereichen getan hat:

Demokratie ist ein Ensemble gewählter Amtsträger, und gewählte Amtsträger repräsentieren (zumindest theoretisch) das Ensemble ihrer Wähler. Obwohl es nicht perfekt ist, ist es immer noch das beste System, das es je gab.
Die medizinische Diagnose verbessert sich durch mehrere Meinungen. Durch die Kombination der Beurteilungen mehrerer Radiologen, Pathologen oder Spezialisten wird die Zahl der Fehldiagnosen kontinuierlich gesenkt. Jeder Arzt kann unterschiedliche Muster oder Randfälle erkennen, und sein kombiniertes Urteil ist zuverlässiger als jede einzelne Beurteilung.
Sogar Aktienmärkte sind eine Ansammlung von Überzeugungen über die Zukunft. Während die in den Bewegungen dieser Märkte enthaltenen Informationen in der Vergangenheit für die meisten Menschen nicht direkt related waren, ändert sich dies auf Prognosemärkten und Prognoseplattformen.
In der jüngsten Veröffentlichung von Claude Code (Februar 2026) führte Anthropic kollaborative „Agententeams“ ein, in denen mehrere Claude-Instanzen gemeinsam an Aufgaben arbeiten und sich über gemeinsame Aufgabenlisten und Peer-to-Peer-Kommunikation koordinieren. xAI verwendet einen ähnlichen Multi-Agenten-Ansatz mit Grok 4 Heavy/Grok 4.20, bei dem unabhängige Agenten parallel arbeiten und die Lösungen der anderen „kreuzvalidieren“, bevor sie sich auf eine endgültige Antwort einigen.

Es stellt sich heraus, dass Teamarbeit der richtige Weg ist. Ensembles von Ensembles von Ensembles tauchen immer wieder in den besten Systemen auf, die Menschen geschaffen haben, und der Bereich des maschinellen Lernens bildet da keine Ausnahme. Im Zeitalter der Intelligenz wird die Skalierung dieser Idee keine Choice mehr sein.

Ensembles von Ensembles von Ensembles: Ein Leitfaden zum Stapeln

Der Stand der Technik

Behauptungen und Annahmen

Mehrschichtige Stapelung

Schicht 1

Schicht 2

Schicht 3

Hat sich das alles gelohnt?

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Alibabas neues Agent-First LLM für Codierung

Einfaches Agenten-Device-Anrufen mit Gemma 4

Das IPO-Rennen von Cybersecurity ist gerade actual geworden. Ein Spitzenreiter wurde bereits für 7,75 Milliarden US-Greenback verkauft |

Microsoft veröffentlicht Fara1.5: Eine Familie von Browser-Computernutzungsagenten (4B/9B/27B), die die Computernutzung von OpenAI Operator und Gemini 2.5 auf On-line-Mind2Web übertrifft

About

Categories

Tags

Recent Post

Alibabas neues Agent-First LLM für Codierung

Einfaches Agenten-Device-Anrufen mit Gemma 4

Der Stand der Technik

Behauptungen und Annahmen

Mehrschichtige Stapelung

Schicht 1

Schicht 2

Schicht 3

Hat sich das alles gelohnt?

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt