hat ein kniffliges Geheimnis. Unternehmen setzen Modelle ein, die bei der Validierung eine Genauigkeit von 98 % erreichen, und beobachten dann, wie sie in der Produktion stillschweigend nachlassen. Das Staff nennt es „Konzeptdrift“ und macht weiter. Was aber, wenn es sich nicht um ein mysteriöses Phänomen handelt, sondern um eine vorhersehbare Folge unserer Optimierung?

Ich begann, diese Frage zu stellen, nachdem ich beobachtet hatte, wie ein anderes Serienmodell scheiterte. Die Antwort führte zu etwas Unerwartetem: Die Geometrie, die wir zur Optimierung verwenden, bestimmt, ob Modelle stabil bleiben, wenn sich Verteilungen verschieben. Nicht die Daten. Nicht die Hyperparameter. Der Raum selbst.

Mir wurde klar, dass das Kreditrisiko grundsätzlich ein ist Rating-Downsidekein Klassifizierungsproblem. Sie müssen „Ausfall“ oder „kein Ausfall“ nicht mit einer Genauigkeit von 98 % vorhersagen. Sie müssen Kreditnehmer nach Risiko ordnen: Ist Kreditnehmer A riskanter als Kreditnehmer B? Wer fällt zuerst in Zahlungsverzug, wenn sich die Wirtschaft verschlechtert?

Standardansätze gehen daran völlig vorbei. Hier erfahren Sie, welche Bäume mit Gradientenverstärkung (XGBoostdas beliebteste Werkzeug auf diesem Gebiet) tatsächlich auf dem erreichen Freddie Mac-Einzelfamilien-Darlehensdatensatz (692.640 Darlehen im Zeitraum 1999–2023):

  • Genauigkeit: 98,7 % ← sieht beeindruckend aus
  • AUC (Rating-Fähigkeit): 60,7 % ← kaum besser als zufällig
  • 12 Monate später: 96,6 % Genauigkeit, aber das Rating verschlechtert sich
  • 36 Monate später: 93,2 % Genauigkeit, AUC beträgt 66,7 % (im Wesentlichen nutzlos)

XGBoost erreicht eine beeindruckende Genauigkeit scheitert aber an der eigentlichen Aufgabe: dem Bestellrisiko. Und es verschlechtert sich vorhersehbar.

Vergleichen Sie dies nun mit dem, was ich entwickelt habe (dargestellt in einem in IEEE DSA2025 akzeptierten Artikel):

  • Anfängliche AUC: 80,3 %
  • 12 Monate später: 76,4 %
  • 36 Monate später: 69,7 %
  • 60 Monate später: 69,7 %

Der Unterschied: XGBoost verliert über 60 Monate 32 AUC-Punkte. Unser Ansatz? Nur 10,6 Punkte in der AUC – (Fläche unter der Kurve) wird uns sagen, wie unser trainierter Algorithmus das Risiko für unsichtbare Daten vorhersagt.

Warum passiert das? Es kommt auf etwas Unerwartetes an: die Geometrie der Optimierung selbst.

Warum das wichtig ist (auch wenn Sie nicht im Finanzbereich tätig sind)

Dabei geht es nicht nur um die Kreditwürdigkeit. Jedes System, bei dem das Rating wichtiger ist als genaue Vorhersagen, steht vor diesem Downside:

  • Medizinische Risikostratifizierung — Wer braucht zuerst dringend Pflege?
  • Vorhersage der Kundenabwanderung — Auf welche Kunden sollten wir uns bei der Kundenbindung konzentrieren?
  • Inhaltsempfehlung — Was sollen wir als nächstes zeigen?
  • Betrugserkennung — Welche Transaktionen verdienen eine menschliche Überprüfung?
  • Priorisierung der Lieferkette — Welche Störungen müssen zuerst behoben werden?

Wenn sich Ihr Kontext allmählich ändert – und wem passiert das nicht? – Genauigkeitsmetriken lügen Sie. Ein Modell kann eine Genauigkeit von 95 % beibehalten und gleichzeitig die Reihenfolge, wer tatsächlich dem höchsten Risiko ausgesetzt ist, völlig durcheinander bringen.

Das ist kein Modellverschlechterungsproblem. Das ist ein Optimierungsproblem.

Was uns die Physik über Stabilität lehrt

Denken Sie an GPS-Navigation. Wenn Sie nur für die „kürzeste aktuelle Route“ optimieren, führen Sie möglicherweise jemanden auf eine Straße, die bald gesperrt wird. Wenn Sie jedoch die Struktur des Verkehrsflusses – die Beziehungen zwischen den Routen – beibehalten, können Sie auch bei sich ändernden Bedingungen eine gute Führung aufrechterhalten. Das brauchen wir für Kreditmodelle. Aber wie bewahrt man die Struktur?

Die NASA ist seit Jahren mit genau diesem Downside konfrontiert. Bei der Simulation von Planetenumlaufbahnen über Millionen von Jahren führen Normal-Rechenmethoden dazu, dass Planeten langsam driften – nicht aus physikalischen Gründen, sondern aufgrund akkumulierter numerischer Fehler. Merkur bewegt sich allmählich spiralförmig in die Sonne hinein. Jupiter driftet nach außen. Sie haben das mit gelöst symplektische Integratoren: Algorithmen, die die geometrische Struktur des Methods bewahren. Die Umlaufbahnen bleiben stabil, weil die Methode das berücksichtigt, was Physiker „Phasenraumvolumen“ nennen – sie behält die Beziehungen zwischen Positionen und Geschwindigkeiten bei.

Hier kommt nun das Überraschende: Das Kreditrisiko hat eine ähnliche Struktur.

Die Geometrie der Rankings

Der standardmäßige Gradientenabstieg wird im euklidischen Raum optimiert. Es findet lokale Minima für Ihre Trainingsverteilung. Aber die euklidische Geometrie bewahrt nicht relative Ordnungen wenn sich die Verteilungen verschieben.

Was bedeutet?

Symplektische Mannigfaltigkeiten.

In Hamiltonsche Mechanik (ein in der Physik verwendeter Formalismus) entwickeln sich konservative Systeme (kein Energieverlust) auf symplektischen Mannigfaltigkeiten – Räumen mit einer 2-Formen-Struktur, die das Phasenraumvolumen bewahrt (Satz von Liouville).

Normal-Symplektische 2-Type

In diesem Phasenraum bewahren symplektische Transformationen relative Abstände. Keine absoluten Positionen, sondern Ordnungen. Genau das, was wir für das Rating unter Verteilungsverschiebung brauchen. Wenn Sie ein reibungsfreies Pendel mit Standardintegrationsmethoden simulieren, kommt es zu Energiedriften. Das Pendel in Abbildung 1 beschleunigt oder verlangsamt sich langsam – nicht aus physikalischen Gründen, sondern aufgrund der numerischen Näherung. Symplektische Integratoren haben dieses Downside nicht, da sie die Hamilton-Struktur genau beibehalten. Das gleiche Prinzip kann auf die Optimierung neuronaler Netzwerke angewendet werden.

Abbildung 1. Das reibungslose Pendel ist das grundlegendste Beispiel der Hamiltonschen Mechanik. Das Pendel hat keine Reibung mit Luft, da es Energie zerstreuen würde. Der Hamiltonsche Formalismus in der Physik ist auf konservative oder nicht-dissipative Systeme mit Energieerhaltung anwendbar. Das Bild hyperlinks zeigt die Flugbahn des Pendels im Phasenraum, dargestellt durch die Geschwindigkeit und den Winkel (mittleres Bild). Bild vom Autor.

Proteinfaltungssimulationen stehen vor dem gleichen Downside. Sie modellieren Tausende von Atomen, die über Mikro- bis Millisekunden hinweg interagieren – Milliarden von Integrationsschritten. Normal-Integratoren sammeln Energie: Moleküle erhitzen sich künstlich, Bindungen brechen, die nicht sollen, die Simulation explodiert.

Abbildung 2: Äquivalenz zwischen „Hamiltonian in physikalischen Systemen“ und seiner Anwendung in NN-Optimierungsräumen. Die Place q entspricht dem NN-Parameter θ und der Impulsvektor pis entspricht der Differenz zwischen aufeinanderfolgenden Parameterzuständen. Obwohl wir es „physikalische Inspiration“ nennen können, handelt es sich dabei um angewandte Differentialgeometrie, symplektische Formen, den Satz von Liouville und strukturerhaltende Integration. Aber ich denke, dass die Hamilton-Analogie für Offenlegungszwecke sinnvoller ist. Bild vom Autor.

Die Umsetzung: Strukturerhaltende Optimierung

Folgendes habe ich tatsächlich getan:

Hamiltonian Framework für neuronale Netze

Ich habe das Coaching neuronaler Netze als Hamilton-System umformuliert:

Hamilton-Gleichung für mechanische Systeme

In mechanischen Systemen ist T(p) der Time period der kinetischen Energie und V(q) die „potentielle Energie“. In dieser Analogie stellt T(p) die Kosten für die Änderung der Modellparameter dar und V(q) stellt die Verlustfunktion des aktuellen Modellzustands dar.

Symplektischer Euler-Optimierer (nicht Adam/SGD):

Anstelle von Adam oder SGD verwende ich zur Optimierung eine symplektische Integration:

Ich habe die symplektische Euler-Methode für ein Hamilton-System mit Ort q und Impuls p verwendet

Wo:

  • H ist der Hamilton-Operator (aus dem Verlust abgeleitete Energiefunktion)
  • Δt ist der Zeitschritt (analog zur Lernrate)
  • q sind die Netzwerkgewichte (Positionskoordinaten) und
  • p sind Impulsvariablen (Geschwindigkeitskoordinaten)

Beachten Sie, dass p_{t+1} in beiden Updates erscheint. Diese Kopplung ist wichtig – sie bewahrt die symplektische Struktur. Das ist nicht nur Dynamik; Es handelt sich um eine strukturerhaltende Integration.

Hamilton-beschränkter Verlust

Darüber hinaus habe ich einen Verlust erstellt, der auf dem Hamilton-Formalismus basiert:

Wo:

  • L_base(θ) ist der binäre Kreuzentropieverlust
  • R(θ) ist der Regularisierungsterm (L2-Strafe für Gewichte) und
  • λ ist der Regularisierungskoeffizient

Der Regularisierungsterm bestraft Abweichungen von der Energieerhaltung und beschränkt die Optimierung auf niedrigdimensionale Mannigfaltigkeiten im Parameterraum.

Wie es funktioniert

Der Mechanismus besteht aus drei Komponenten:

  1. Symplektische Struktur → Volumenerhaltung → begrenzte Parameterexploration
  2. Hamiltonsche Einschränkung → Energieeinsparung → stabile Langzeitdynamik
  3. Gekoppelte Updates → bewahrt die für das Rating relevante geometrische Struktur

Diese Struktur wird im folgenden Algorithmus dargestellt

Abbildung 3: Der verwendete Algorithmus wendete sowohl die Impulsaktualisierung als auch die Hamilton-Optimierung an.

Die Ergebnisse: 3x bessere zeitliche Stabilität

Wie bereits erläutert, habe ich dieses Framework mit getestet Freddie Mac-Einzelfamilien-Darlehensdatensatz – der einzige langfristige Kreditdatensatz mit korrekten zeitlichen Aufteilungen über Konjunkturzyklen hinweg.

Die Logik besagt, dass die Genauigkeit in allen drei Datensätzen (von 12 auf 60 Monate) abnehmen muss. Langfristige Vorhersagen sind früher weniger genau als kurzfristige. Was wir jedoch sehen, ist, dass XGBoost diesem Muster nicht folgt (AUC-Werte von 0,61 auf 0,67 – das ist die Signatur der Optimierung im falschen Raum). Unser symplektischer Optimierer tut dies, obwohl er eine geringere Genauigkeit zeigt (AUC-Werte sinken von 0,84 auf 0,70). Was garantiert Ihnen beispielsweise, dass eine Vorhersage für 36 realistischer ist? Die 0,97-Genauigkeit von XGBoost oder der 0,77-AUC-Wert aus dem Hamilton-inspirierten Ansatz? XGBoost hat seit 36 ​​Monaten eine AUC von 0,63 (sehr nahe an einer zufälligen Vorhersage).

Was jede Komponente beiträgt

In unserer Ablationsstudie tragen alle Komponenten dazu bei, wobei die Dynamik im symplektischen Raum für größere Gewinne sorgt. Dies steht im Einklang mit dem theoretischen Hintergrund – die symplektische 2-Type bleibt durch gekoppelte Positions-Impuls-Aktualisierungen erhalten.

Tisch. Ablationsstudie. Normal-NN mit Adam-Optimierer im Vergleich zu unserem Ansatz (vollständiges Hamilton-Modell)

Wann sollte dieser Ansatz verwendet werden?

Verwenden Sie die symplektische Optimierung als Different zu Gradientenabstiegsoptimierern, wenn:

  • Das Rating ist wichtiger als die Klassifizierungsgenauigkeit
  • Die Verteilungsverschiebung erfolgt schrittweise und vorhersehbar (Konjunkturzyklen, keine schwarzen Schwäne)
  • Zeitliche Stabilität ist entscheidend (finanzielles Risiko, medizinische Prognose im Zeitverlauf)
  • Eine Umschulung ist teuer (behördliche Validierung, Genehmigungsaufwand)
  • Für die Produktionsstabilität können Sie sich die zwei- bis dreifache Schulungszeit leisten
  • Sie haben <10.000 Options (funktioniert intestine bis zu ~10.000 Dimensionen)

Nicht verwenden, wenn:

  • Die Verteilungsverschiebung ist abrupt/unvorhersehbar (Marktcrashs, Regimewechsel)
  • Sie benötigen Interpretierbarkeit für die Einhaltung (dies trägt nicht zur Erklärbarkeit bei)
  • Sie befinden sich in ultrahohen Dimensionen (>10.000 Funktionen, die Kosten werden unerschwinglich)
  • Echtzeit-Trainingsbeschränkungen (2–3x langsamer als Adam)

Was das konkret für Produktionssysteme bedeutet

Für Organisationen, die Kreditmodelle oder ähnliche Herausforderungen einsetzen:

Downside: Sie schulen vierteljährlich um. Jedes Mal, wenn Sie Holdout-Daten validieren, sehen Sie eine Genauigkeit von über 97 %, stellen sie bereit und beobachten, wie sich die AUC über einen Zeitraum von 12 bis 18 Monaten verschlechtert. Sie geben „Marktbedingungen“ die Schuld und schulen erneut um.

Lösung: Verwenden Sie symplektische Optimierung. Akzeptieren Sie eine etwas geringere Spitzengenauigkeit (80 % gegenüber 98 %) im Austausch für eine dreimal bessere zeitliche Stabilität. Ihr Modell bleibt länger zuverlässig. Sie schulen seltener um. Regulatorische Erklärungen sind einfacher: „Unser Modell behält die Rating-Stabilität bei Verteilungsverschiebungen bei.“

Kosten: 2–3x längere Trainingszeit. Für eine monatliche oder vierteljährliche Umschulung ist dies akzeptabel – Sie tauschen Rechenstunden gegen monatelange Stabilität ein.

Das ist Technik, keine Magie. Wir optimieren in einem Raum, der das bewahrt, was für das Geschäftsproblem tatsächlich wichtig ist.

Das größere Bild

Eine Modellverschlechterung ist nicht unvermeidlich. Es ist eine Folge der Optimierung am falschen Ort. Der standardmäßige Gradientenabstieg findet Lösungen, die für Ihre aktuelle Verteilung funktionieren. Symplektische Optimierung findet Lösungen, die die Struktur bewahren – die Beziehungen zwischen Beispielen, die das Rating bestimmen. Unser vorgeschlagener Ansatz wird nicht jedes Downside im ML lösen. Aber für den Praktiker, der zusieht, wie sein Produktionsmodell verfällt – für die Organisation, die vor regulatorischen Fragen zur Modellstabilität steht – ist es eine Lösung, die heute funktioniert.

Nächste Schritte

Der Code ist verfügbar: (Hyperlink)

Das vollständige Papier: Wird bald verfügbar sein. Kontaktieren Sie mich, wenn Sie daran interessiert sind, es zu erhalten ((e-mail protected))

Fragen oder Zusammenarbeit: Wenn Sie an Rating-Problemen mit zeitlichen Stabilitätsanforderungen arbeiten, wäre ich daran interessiert, etwas über Ihren Anwendungsfall zu erfahren.


Vielen Dank fürs Lesen – und Teilen!

Benötigen Sie Hilfe bei der Implementierung dieser Artwork von Systemen?

Javier Marin
Angewandter KI-Berater | Produktions-KI-Systeme + Einhaltung gesetzlicher Vorschriften
(e-mail protected)


Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert