
Jedes Jahr kommen die Länder, die an der Internationalen Mathematikolympiade (IMO) teilnehmen, mit einer Broschüre mit ihren besten und originellsten Problemen. Diese Broschüren werden unter den Delegationen verteilt und verschwinden dann stillschweigend. Niemand hatte sie jemals systematisch gesammelt, bereinigt und zur Verfügung gestellt, weder für KI-Forscher, die die Grenzen des mathematischen Denkens testen, noch für die Studenten auf der ganzen Welt, die weitgehend alleine für diese Wettbewerbe trainieren.
Forscher des Pc Science and Synthetic Intelligence Laboratory (CSAIL) des MIT, der King Abdullah College of Science and Expertise (KAUST) und der Firma HUMAIN haben nun genau das getan.
MathNet ist der größte hochwertige Datensatz beweisbasierter mathematischer Probleme, der jemals erstellt wurde. Er umfasst mehr als 30.000 von Experten verfasste Probleme und Lösungen aus 47 Ländern, 17 Sprachen und 143 Wettbewerben und ist fünfmal größer als der nächstgrößte Datensatz seiner Artwork. Die Arbeit wird später in diesem Monat auf der Worldwide Convention on Studying Representations (ICLR) in Brasilien vorgestellt.
Was MathNet von anderen unterscheidet, ist nicht nur seine Größe, sondern auch seine Breite. Frühere Datensätze auf Olympia-Ebene stammen quick ausschließlich aus Wettbewerben in den Vereinigten Staaten und China. MathNet erstreckt sich über Dutzende Länder auf sechs Kontinenten, deckt 17 Sprachen ab, umfasst sowohl text- als auch bildbasierte Probleme und Lösungen und umfasst vier Jahrzehnte Wettbewerbsmathematik. Ziel ist es, nicht nur die sichtbarsten, sondern das gesamte Spektrum mathematischer Perspektiven und Problemlösungstraditionen zu erfassen, die es in der globalen Mathematikgemeinschaft gibt.
„Jedes Land bringt eine Broschüre mit seinen neuartigsten und kreativsten Problemen mit“, sagt Shaden Alshammari, MIT-Doktorand und Hauptautor des Papiers. „Sie teilen die Broschüren miteinander, aber niemand hat sich die Mühe gemacht, sie einzusammeln, zu bereinigen und on-line hochzuladen.“
Für den Aufbau von MathNet battle die Suche nach 1.595 PDF-Bänden mit insgesamt mehr als 25.000 Seiten erforderlich, darunter digitale Dokumente und jahrzehntealte Scans in mehr als einem Dutzend Sprachen. Ein erheblicher Teil dieses Archivs stammte von einer ungewöhnlichen Quelle: Navid Safaei, einem langjährigen IMO-Neighborhood-Mitglied und Co-Autor, der diese Broschüren seit 2006 von Hand gesammelt und gescannt hatte. Sein persönliches Archiv bildete einen Großteil des Rückgrats des Datensatzes.
Die Beschaffung ist ebenso wichtig wie der Umfang. Während die meisten vorhandenen Mathematikdatensätze Probleme aus Neighborhood-Foren wie Artwork of Downside Fixing (AoPS) beziehen, greift MathNet ausschließlich auf offizielle nationale Wettbewerbsbroschüren zurück. Die Lösungen in diesen Broschüren sind von Experten verfasst und von Experten begutachtet, und sie umfassen oft mehrere Seiten, wobei die Autoren mehrere Ansätze für dasselbe Downside durchgehen. Diese Tiefe gibt KI-Modellen ein weitaus umfassenderes Sign zum Erlernen mathematischen Denkens als die kürzeren, informellen Lösungen, die für aus der Neighborhood stammende Datensätze typisch sind. Dies bedeutet auch, dass der Datensatz für Studierende wirklich nützlich ist: Jeder, der sich auf die IMO oder einen nationalen Wettbewerb vorbereitet, hat jetzt Zugriff auf eine zentralisierte, durchsuchbare Sammlung hochwertiger Probleme und erarbeiteter Lösungen aus Traditionen auf der ganzen Welt.
„Ich erinnere mich an so viele Studenten, für die es eine individuelle Anstrengung battle. Niemand in ihrem Land hat sie für diese Artwork von Wettbewerb trainiert“, sagt Alshammari, die selbst als Studentin am IMO teilnahm. „Wir hoffen, dass ihnen dadurch ein zentraler Ort mit qualitativ hochwertigen Problemen und Lösungen geboten wird, aus denen sie lernen können.“
Das Staff ist tief in der IMO-Neighborhood verwurzelt. Sultan Albarakati, ein Co-Autor, ist derzeit Mitglied des IMO-Vorstands und die Forscher arbeiten daran, den Datensatz direkt mit der IMO-Stiftung zu teilen. Um den Datensatz zu validieren, stellten sie eine Bewertungsgruppe aus mehr als 30 menschlichen Gutachtern aus Ländern wie Armenien, Russland, der Ukraine, Vietnam und Polen zusammen, die sich koordinierten, um Tausende von Lösungen zu überprüfen.
„Die MathNet-Datenbank hat das Potenzial, eine hervorragende Ressource sowohl für Studierende als auch für Führungskräfte zu sein, die nach neuen Problemen suchen, an denen sie arbeiten können, oder nach der Lösung für eine schwierige Frage suchen“, sagt Tanish Patil, stellvertretender Leiter der Schweizer IMO. „Während es andere Archive mit Olympia-Problemen gibt (insbesondere die Contest Collections-Foren auf AoPS), fehlen diesen Ressourcen ein standardisiertes Formatierungssystem, verifizierte Lösungen und wichtige Problemmetadaten, die für Themen und Theorie erforderlich sind. Es wird auch interessant sein zu sehen, wie dieser Datensatz verwendet wird, um die Leistung von Argumentationsmodellen zu verbessern, und ob wir bald in der Lage sein werden, ein wichtiges Downside bei der Erstellung neuartiger Olympia-Fragen zuverlässig zu beantworten: festzustellen, ob ein Downside wirklich originell ist.“
MathNet fungiert auch als strenger Maßstab für die KI-Leistung, und die Ergebnisse zeigen ein komplizierteres Bild, als die jüngsten Schlagzeilen über die mathematischen Fähigkeiten der KI vermuten lassen. Grenzmodelle haben außerordentliche Fortschritte gemacht: Berichten zufolge haben einige bei der IMO Goldmedaillen-Leistungen erreicht, und bei Customary-Benchmarks lösen sie jetzt Probleme, die die meisten Menschen verblüffen würden. Aber MathNet zeigt, dass die Fortschritte uneinheitlich sind. Sogar GPT-5, das leistungsstärkste getestete Modell, erzielte bei MathNets Haupt-Benchmark von 6.400 Problemen einen Durchschnitt von rund 69,3 Prozent und scheiterte damit an quick jedem dritten Downside auf Olympia-Niveau. Und wenn es bei Problemen um Zahlen geht, sinkt die Leistung auf breiter Entrance erheblich, sodass das visuelle Denken selbst bei den leistungsfähigsten Modellen eine dauerhafte Schwachstelle darstellt.
Mehrere Open-Supply-Modelle erreichten bei Problemen mit der mongolischen Sprache 0 Prozent und verdeutlichten damit eine weitere Dimension, in der aktuelle KI-Systeme trotz ihrer Gesamtstärke nicht ausreichen.
„GPT-Modelle sind in Englisch und anderen Sprachen gleichermaßen intestine“, sagt Alshammari. „Aber viele der Open-Supply-Modelle scheitern bei weniger verbreiteten Sprachen wie Mongolisch völlig.“
Die Vielfalt von MathNet soll auch eine tiefere Einschränkung bei der Artwork und Weise beseitigen, wie KI-Modelle Mathematik lernen. Wenn sich die Trainingsdaten eher an englischen und chinesischen Problemen orientieren, absorbieren die Modelle einen kleinen Teil der mathematischen Kultur. Ein rumänisches Downside der Kombinatorik oder ein brasilianisches Downside der Zahlentheorie nähern sich möglicherweise demselben zugrunde liegenden Konzept aus einem völlig anderen Blickwinkel. Die Forscher argumentieren, dass der Kontakt mit diesem Bereich sowohl Menschen als auch KI-Systeme zu besseren mathematischen Denkern macht.
Über die Problemlösung hinaus führt MathNet einen Retrieval-Benchmark ein, der fragt, ob Modelle erkennen können, wenn zwei Probleme dieselbe zugrunde liegende mathematische Struktur aufweisen, eine Fähigkeit, die sowohl für die KI-Entwicklung als auch für die Mathematik-Neighborhood selbst von Bedeutung ist. Bei echten IMO-Prüfungen sind im Laufe der Jahre nahezu doppelte Probleme aufgetreten, da es selbst für Expertengremien wirklich schwierig ist, mathematische Äquivalenzen über verschiedene Notationen, Sprachen und Formate hinweg zu finden. Beim Testen von acht hochmodernen Einbettungsmodellen stellten die Forscher fest, dass selbst die stärksten Einbettungsmodelle beim ersten Versuch nur in etwa 5 Prozent der Fälle die richtige Übereinstimmung identifizierten, wobei Modelle häufig strukturell nicht zusammenhängende Probleme als ähnlicher einstuften als gleichwertige.
Der Datensatz enthält auch einen Benchmark zur abrufgestützten Generierung, mit dem getestet wird, ob die Leistung verbessert wird, wenn einem Modell ein strukturell bedingtes Downside zugewiesen wird, bevor es mit der Lösung eines neuen Issues beauftragt wird. Dies ist der Fall, jedoch nur, wenn das abgerufene Downside wirklich related ist. DeepSeek-V3.2-Speciale steigerte bei intestine passendem Abruf bis zu 12 Prozentpunkte, während irrelevanter Abruf die Leistung in etwa 22 Prozent der Fälle verschlechterte.
Alshammari schrieb die Arbeit zusammen mit Safaei, dem HUMAIN-KI-Ingenieur Abrar Zainal, dem Direktor der KAUST-Akademie, Sultan Albarakati, und MIT-CSAIL-Kollegen: Masterstudent Kevin Wen SB ’25; Microsoft Principal Engineering Supervisor Mark Hamilton SM ’22, PhD ’25; und die Professoren William Freeman und Antonio Torralba. Ihre Arbeit wurde teilweise vom Schwarzman School of Computing Fellowship und der Nationwide Science Basis finanziert.
MathNet ist öffentlich verfügbar unter mathnet.csail.mit.edu.
