MiniMax hat gerade MiniMax M2.7 als Open Supply bereitgestellt: Ein sich selbst entwickelndes Agentenmodell, das bei SWE-Professional 56,22 % und bei Terminal Bench 2 57,0 % erreicht

MiniMax hat MiniMax M2.7 offiziell als Open-Supply-Model bereitgestellt und die Modellgewichte auf Hugging Face öffentlich zugänglich gemacht. MiniMax M2.7 wurde ursprünglich am 18. März 2026 angekündigt und ist das bisher leistungsfähigste Open-Supply-Modell von MiniMax – und das erste Modell, das aktiv an seinem eigenen Entwicklungszyklus teilnimmt, eine bedeutende Veränderung in der Artwork und Weise, wie große Sprachmodelle erstellt und iteriert werden.

Was ist MiniMax M2.7?

MiniMax M2.7 ist Teil der M2-Serie der Combination-of-Consultants (MoE)-Modelle von MiniMax. MoE ist ein Architekturdesign, bei dem bei jedem Inferenzdurchlauf nur eine Teilmenge der Gesamtparameter „aktiviert“ wird, was die Bereitstellung des Modells im Vergleich zu einem dichten Modell mit ähnlicher Ausgabequalität deutlich schneller und kostengünstiger macht.

MiniMax M2.7 basiert auf drei Kernkompetenzbereichen: professionelle Softwareentwicklung, professionelle Büroarbeit und das, was MiniMax Agent Groups nennt – native Multi-Agenten-Zusammenarbeit. MiniMax M2.7 ist in der Lage, komplexe Agentenstrukturen aufzubauen und hochkomplexe Produktivitätsaufgaben zu erledigen, indem es Funktionen wie Agententeams, komplexe Fähigkeiten und dynamische Toolsuche nutzt.

SOTA-Benchmark-Leistung: SWE-Professional und Terminal Bench 2

Auf SWE-Professional, das mehrere Programmiersprachen abdeckt, erreichte MiniMax M2.7 eine Genauigkeitsrate von 56,22 %, was GPT-5.3-Codex entspricht. Die Aufgaben von SWE-Professional umfassen Protokollanalyse, Fehlerbehebung, Überprüfung der Codesicherheit und Debugging von Arbeitsabläufen für maschinelles Lernen – viel näher an der chaotischen Realität von Produktionssystemen als standardmäßige algorithmische Codierungstests.

Auf Terminal Bench 2 (57,0 %) und NL2Repo (39,8 %), die beide ein hohes Maß an Verständnis auf Systemebene erfordern, schneidet MiniMax M2.7 solide ab. Das Modell zeichnet sich nicht nur durch die Codegenerierung aus, sondern kann auch die Betriebslogik und die kollaborative Dynamik von Softwaresystemen tiefgreifend verstehen.

Beim Codegenerierungs-Benchmark auf Repo-Ebene VIBE-Professional erzielte MiniMax M2.7 eine Punktzahl von 55,6 % und lag damit nahezu auf dem Niveau von Opus 4.6. Das heißt, unabhängig davon, ob es sich bei der Anforderung um Internet-, Android-, iOS- oder Simulationsaufgaben handelt, können diese direkt zur Ausführung an MiniMax M2.7 übergeben werden. Es zeigt auch einen starken Vorteil bei Benchmarks, die näher an realen technischen Szenarien liegen: SWE Multilingual (76,5) und Multi SWE Bench (52,7).

Produktions-Debugging: Weniger als drei Minuten

Wenn in der Produktion Warnungen auftreten, kann MiniMax M2.7 Überwachungsmetriken mit Bereitstellungszeitplänen korrelieren, um kausale Überlegungen anzustellen, statistische Analysen zu Hint-Stichproben durchzuführen und präzise Hypothesen vorzuschlagen, proaktiv eine Verbindung zu Datenbanken herzustellen, um Grundursachen zu überprüfen, fehlende Indexmigrationsdateien im Code-Repository zu lokalisieren und die nicht blockierende Indexerstellung zu verwenden, um das Bluten zu stoppen, bevor eine Zusammenführungsanforderung gesendet wird. Das MiniMax-Group berichtet, dass dies die Wiederherstellungszeit für Reside-Produktionssystemvorfälle mehrfach auf unter drei Minuten verkürzte. Von Observability-Analyse und Datenbank-Experience bis hin zur Entscheidungsfindung auf SRE-Ebene positioniert dies MiniMax M2.7 als etwas, das über ein Code-Generierungsmodell hinausgeht.

Die Self-Evolution-Architektur

Um die Grenzen der autonomen Verbesserung zu testen, wurde MiniMax M2.7 damit beauftragt, die Programmierleistung eines Modells auf einem internen Gerüst zu optimieren. Es lief völlig autonom und führte über 100 Runden lang eine iterative Schleife aus „Fehlerverläufe analysieren → Änderungen planen → Gerüstcode ändern → Bewertungen ausführen → Ergebnisse vergleichen → entscheiden, Änderungen beizubehalten oder rückgängig zu machen“. Während dieses Prozesses entdeckte MiniMax M2.7 selbst wirksame Optimierungen: systematische Suche nach der optimalen Kombination von Abtastparametern wie Temperatur, Frequenznachteil und Anwesenheitsnachteil; Entwerfen spezifischerer Workflow-Richtlinien (z. B. automatische Suche nach demselben Fehlermuster in anderen Dateien nach einem Repair); und Hinzufügen einer Schleifenerkennung zur Agentenschleife des Gerüsts. Dadurch wurde eine Leistungsverbesserung von 30 % bei internen Bewertungssätzen erreicht.

Innerhalb der Arbeitsabläufe des Reinforcement-Studying-Groups von MiniMax ist M2.7 nun in der Lage, 30–50 % des Arbeitsablaufs durchgängig abzuwickeln, wobei menschliche Forscher nur bei kritischen Entscheidungen und Diskussionen interagieren.

MLE Bench Lite: Testen autonomer ML-Experimente

Das MiniMax-Group testete MiniMax M2.7 auch auf MLE Bench Lite, der Open-Supply-Suite von OpenAI mit 22 Wettbewerben für maschinelles Lernen, die auf einer einzigen A30-GPU ausgeführt werden können und praktisch alle Phasen des ML-Workflows abdecken.

Für diese Bewertung hat das MiniMax-Group einen einfachen Dreikomponenten-Gurt entwickelt: Kurzzeitgedächtnis, Selbstfeedback und Selbstoptimierung. Nach jeder Iterationsrunde generiert der Agent eine Markdown-Datei für das Kurzzeitgedächtnis, führt eine Selbstkritik an den aktuellen Ergebnissen durch und gibt Optimierungsanweisungen für die nächste Runde. Es wurden drei Versuche durchgeführt, jeder mit einem 24-Stunden-Fenster für die iterative Entwicklung.

Der beste Lauf erzielte 9 Goldmedaillen, 5 Silbermedaillen und 1 Bronzemedaille. Die durchschnittliche Medaillenquote in den drei Läufen betrug 66,6 %, ein Ergebnis, das nur von Opus-4,6 (75,7 %) und GPT-5,4 (71,2 %) übertroffen wurde, gleichauf mit Gemini-3,1 (66,6 %).

Professionelle Büroarbeit und Finanzen

Über die Softwareentwicklung hinaus zielt MiniMax M2.7 auf professionelle Büroaufgaben ab. In der GDPval-AA-Bewertung, die die Domänenkompetenz und die Fähigkeit zur Aufgabenerfüllung über 45 Modelle hinweg misst, erreichte MiniMax M2.7 einen ELO-Wert von 1495 – den höchsten unter den Open-Supply-Modellen, an zweiter Stelle nach Opus 4.6, Sonnet 4.6 und GPT-5.4 und übertraf GPT-5.3.

Beim Toolathon erreichte MiniMax M2.7 eine Genauigkeit von 46,3 % und erreichte damit die weltweite Spitzengruppe. Im MM Claw-Take a look at – einer Bewertung, die MiniMax auf der Grundlage realer Nutzungsmuster der OpenClaw-Plattform für persönliche Agenten erstellt hat – behielt MiniMax M2.7 eine Fähigkeitskonformitätsrate von 97 % bei 40 komplexen Fähigkeiten (jeweils mehr als 2.000 Token) bei und erreichte eine Gesamtgenauigkeit von 62,7 %, was Sonnet 4.6 nahekommt.

Im Finanzbereich kann MiniMax M2.7 selbstständig die Jahresberichte und Ergebnisabschriften eines Unternehmens lesen, mehrere Forschungsberichte mit Querverweisen versehen, unabhängig Annahmen entwerfen und ein Umsatzprognosemodell erstellen sowie einen PPT- und Phrase-Forschungsbericht auf der Grundlage von Vorlagen erstellen – verstehen, Urteile fällen und Ergebnisse produzieren wie ein Junior-Analyst.

Wichtige Erkenntnisse

MiniMax M2.7 ist jetzt offiziell Open Supplymit Gewichten, die auf Hugging Face verfügbar sind, wodurch ein Agentenmodell der Spitzenklasse frei zugänglich wird, damit Entwickler es bereitstellen und darauf aufbauen können.
MiniMax M2.7 erreicht SOTA-Leistung bei realen Software program-Engineering-Benchmarksmit 56,22 % bei SWE-Professional (entspricht GPT-5.3-Codex) und 57,0 % bei Terminal Bench 2 – Exams, die das Denken auf Produktionsebene messen, nicht nur die Codegenerierung.
MiniMax M2.7 ist das erste Modell, das sich aktiv an der eigenen Entwicklung beteiligtDabei wurden über 100 autonome Runden der Gerüstoptimierung durchgeführt und eine Leistungsverbesserung von 30 % erzielt – ein frühes, konkretes Beispiel für KI-gestützte KI-Entwicklung in der Praxis.
Das Modell ist für echte Agentenbereitstellungen konzipiertAufrechterhaltung einer Kompetenztreue von 97 % bei 40 komplexen Fähigkeiten (jeweils mehr als 2.000 Token), Unterstützung nativer Agententeams mit stabilen Rollengrenzen und autonome Abwicklung von 30–50 % der internen RL-Group-Workflows von MiniMax.
MiniMax M2.7 ist das am höchsten bewertete Open-Supply-Modell für GDPval-AA mit einem ELO-Wert von 1495 bei 45 Modellen, was starke professionelle Arbeitsfähigkeiten beweist, die die Bearbeitung von Bürodokumenten, Finanzanalysen und die Bereitstellung von Aufgaben in mehreren Runden mit hoher Wiedergabetreue umfassen.

Schauen Sie sich das an Technische Particulars Und Modellgewicht. Sie können uns auch gerne weiter folgen Twitter und vergessen Sie nicht, bei uns mitzumachen 130.000+ ML SubReddit und Abonnieren Unser Publication. Warten! Bist du im Telegram? Jetzt können Sie uns auch per Telegram kontaktieren.

Möchten Sie mit uns zusammenarbeiten, um Ihr GitHub-Repo ODER Ihre Hugging Face Web page ODER Produktveröffentlichung ODER Ihr Webinar usw. zu bewerben? Vernetzen Sie sich mit uns

MiniMax hat gerade MiniMax M2.7 als Open Supply bereitgestellt: Ein sich selbst entwickelndes Agentenmodell, das bei SWE-Professional 56,22 % und bei Terminal Bench 2 57,0 % erreicht

Was ist MiniMax M2.7?

SOTA-Benchmark-Leistung: SWE-Professional und Terminal Bench 2

Produktions-Debugging: Weniger als drei Minuten

Die Self-Evolution-Architektur

MLE Bench Lite: Testen autonomer ML-Experimente

Professionelle Büroarbeit und Finanzen

Wichtige Erkenntnisse

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

GLM-5.1: Architektur, Benchmarks, Funktionen und Verwendung

10 LLM-Engineering-Konzepte in 10 Minuten erklärt

MiniMax hat gerade MiniMax M2.7 als Open Supply bereitgestellt: Ein sich selbst entwickelndes Agentenmodell, das bei SWE-Professional 56,22 % und bei Terminal Bench 2 57,0 % erreicht

Einführung in Reinforcement Studying Brokers mit der Unity Recreation Engine

About

Categories

Tags

Recent Post

GLM-5.1: Architektur, Benchmarks, Funktionen und Verwendung

10 LLM-Engineering-Konzepte in 10 Minuten erklärt

Was ist MiniMax M2.7?

SOTA-Benchmark-Leistung: SWE-Professional und Terminal Bench 2

Produktions-Debugging: Weniger als drei Minuten

Die Self-Evolution-Architektur

MLE Bench Lite: Testen autonomer ML-Experimente

Professionelle Büroarbeit und Finanzen

Wichtige Erkenntnisse

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt