Mistral AI veröffentlicht Leanstral 1.5: Ein Apache-2.0-Lean-4-Code-Agent-Modell, das 587 von 672 PutnamBench-Problemen löst


Heute wurde Mistral AI veröffentlicht Leanstral 1.5. Es handelt sich um ein Code-Agent-Modell, das für Lean 4 entwickelt wurde. Die Model zielt auf automatisierte Theoremprüfung und Proof-Engineering ab. Gewichte sind unter Apache 2.0 offen. Ein kostenloser API-Endpunkt, leanstral-1-5ist jetzt reside.

Leanstral 1.5 aktualisiert das frühere Modell Leanstral-2603. Es gehört zur Mistral Small 4-Familie.

Was ist Leanstral 1.5?

Leanstral 1.5 ist ein Code-Agent-Modell für Schlank 4ein Beweisassistent. Ein Beweisassistent überprüft jeden logischen Schritt mechanisch. Lean 4 kann Objekte wie perfektoide Räume und Eigenschaften von Rust-Fragmenten ausdrücken.

Die Architektur ist eine Mischung aus Experten oder MoE. Ein MoE leitet jeden Token an einige spezialisierte Subnetzwerke weiter. Dadurch bleibt die Rechenleistung niedrig, während die Gesamtkapazität groß bleibt. Leanstral setzt 128 Experten ein, von denen 4 professional Token aktiv sind.

Die Gesamtgröße beträgt 119B Parameter, wobei 6,5B professional Token aktiviert sind. Die Kontextlänge beträgt 256.000 Token. Die Eingabe erfolgt multimodal und akzeptiert Textual content und Bilder. Die Ausgabe besteht nur aus Textual content.

Wie Mistral Leanstral 1.5 trainierte

Das Coaching verläuft in drei Etappen. Dabei handelt es sich um die Mitte des Trainings, die überwachte Feinabstimmung und dann um das verstärkende Lernen mit CISPO. Zwei Reinforcement-Studying-Umgebungen prägten das Agentenverhalten des Modells.

Im Multiturn-Umgebungerhält das Modell eine Theoremaussage. Es muss es beweisen oder widerlegen. Es übermittelt einen Beweis und liest dann das Lean-Compiler-Suggestions. Es verfeinert sich über mehrere Versuche hinweg, bis es erfolgreich ist oder sein Price range erschöpft ist.

Im Code-Agent-UmgebungLeanstral arbeitet in einem Rohdateisystem. Es bearbeitet Dateien, führt Bash-Befehle aus und verwendet den Lean-Sprachserver. Dieser Server stellt Ziele, Fehler und Typinformationen in Echtzeit bereit.

Dadurch können Teilbeweise abgeschlossen, Hilfslemmas erstellt und durch Kontextkomprimierung beibehalten werden. Durch die Komprimierung wird früherer Kontext komprimiert, sodass lange Aufgaben noch in das Fenster passen. Die Richtigkeit wird durch Mistrals Abzweigung von SafeVerify anhand von Zieltheoremen überprüft.

Benchmarks und Leistung

Das Mistral-Workforce berichtet, dass Leanstral 1.5 miniF2F sättigt. Es erreicht sowohl im Validierungs- als auch im Testsatz 100 %. Es löst 587 von 672 PutnamBench-Problemen.

Das Modell setzt einen neuen Stand der Technik in Bezug auf die Algebra-Benchmarks FATE-H und FATE-X. Mistral listet 87 % bei FATE-H und 34 % bei FATE-X. Bei FLTEval steigt move@1 von 21,9 auf 28,9. Go@8 steigt von 31,9 auf 43,2.

FLTEval basiert auf echten Pull-Anfragen an das Fermat’s Final Theorem-Repository. Damit übertrifft Leanstral die 39,6 von Opus 4.6 bei einem Siebtel der Kosten. Außerdem baut es seinen Vorsprung gegenüber Open-Supply-Modellen um das Drei- bis Zehnfache aus. Go@8 bedeutet, dass professional Downside acht Versuche zulässig sind.

Benchmark Leanstral 1.5 Element
miniF2F (Wert + Take a look at) 100 % Gesättigt, laut Mistral
PutnamBank 587 / 672 ~4 $ professional Downside
FATE-H 87 % Neuer Stand der Technik
FATE-X 34 % Neuer Stand der Technik
FLTEval bestanden@1 28.9 Ab 21.9
FLTEval bestanden@8 43.2 Schlägt Opus 4.6 mit 39,6

Auf PutnamBench liegt Leanstral mit 7 Punkten Vorsprung vor Seed-Prover 1,5. Dies kostet etwa 4 US-Greenback professional Downside. Mistral schätzt die hohe Einstellung von Seed-Prover auf etwa 300 $ oder mehr professional Downside.

Diese Einstellung sieht ein Price range von 10 H20-Tagen professional Downside vor. Mistral vergleicht sich auch mit Goedel-Architect und AxProverBase. Es wird darauf hingewiesen, dass Aleph Prover etwa 54 bis 68 US-Greenback professional Downside kostet.

Die Testzeitskalierung ist das bestimmende Verhalten des Modells. Durch die Erhöhung des Token-Budgets professional Versuch wird PutnamBench Go@8 angehoben. Das Mistral-Workforce meldet 44 gelöste Probleme bei 50.000, 244 bei 200.000, 493 bei 1M und 587 bei 4M. Mit dem interaktiven Explorer unten können Sie über dieselbe Kurve scrollen.