DeepReinforce wurde veröffentlicht Ornith-1.0eine Open-Supply-Modellfamilie, die für die Agentencodierung entwickelt wurde. Das Sortiment umfasst vier Größen, vom kompakten 9B-Modell bis zum 397B-Combine-of-Experten-Flaggschiff. Jeder Kontrollpunkt wird unter der MIT-Lizenz auf Hugging Face ausgeliefert. Die Modelle werden auf Foundation der vorab trainierten Gemma 4 und Qwen 3.5 nachtrainiert.

Die meisten Programmierer koppeln ein Modell mit einem festen, von Menschen entworfenen Kabelbaum. Ornith-1.0 lernt stattdessen, seine eigenen zu schreiben. Das DeepReinforce-Forschungsteam berichtet über hochmoderne Ergebnisse bei offenen Modellen vergleichbarer Größe.

TL;DR

  • Ornith-1.0 wird in den Größen 9B, 31B, 35B-MoE und 397B-MoE unter MIT geliefert und basiert auf Gemma 4 und Qwen 3.5.
  • Während des RL lernt das Modell sein eigenes Gerüst und optimiert so gemeinsam den Gurt und die Lösung.
  • Ornith-1.0-397B übertrifft Claude Opus 4.7 in beiden Hauptbenchmarks, nicht jedoch Opus 4.8 oder den größeren GLM-5.2-744B.
  • Drei Schichten – feste Vertrauensgrenze, deterministischer Monitor, eingefrorener LLM-Richter – schützen vor Belohnungs-Hacking.

Was ist Ornith-1.0?

Ornith-1.0 ist eine Reihe von Argumentationsmodellen, die auf Codierungsagenten abgestimmt sind. Die Varianten sind 9B Dense, 31B Dense, 35B MoE und 397B MoE. Das 35B-Modell ist eine Mischung aus Experten und aktiviert ungefähr 3B-Parameter professional Token. Für eine schnellere lokale Bereitstellung werden auch FP8- und GGUF-Builds veröffentlicht.

Jedes Modell ist ein Argumentationsmodell. Antworten öffnen mit a <assume> Block vor der endgültigen Antwort. Die Bereitstellungsrezepte aktivieren einen Argumentationsparser, sodass die Hint-Rückgabe in einem separaten erfolgt reasoning_content Feld. Die Modelle geben auch wohlgeformte Toolaufrufe für Agentenschleifen aus.

Die Bereitstellung ist unkompliziert. Das 9B-Modell ist in bf16 etwa 19 GB groß und wird von einer einzelnen 80-GB-GPU betrieben. Die Bereitstellung von Rezepten zielt auf vLLM, SGLang und Transformers ab. Jedes Modell stellt einen OpenAI-kompatiblen Endpunkt bereit. Normal-Agenten-Frameworks funktionieren daher ohne Code-Änderungen.

Interaktiver Erklärer