GPT-5.2 gepunktet 92 % bei einem „Google-Proof“-Wissenschafts-Benchmark, was deutlich über dem Experten-Basiswert von 70 % liegt. Das fortschrittliche Modell erzielte auch bei großen internationalen Wettbewerben Medaillengewinne und demonstrierte damit seine sich weiterentwickelnden Fähigkeiten im wissenschaftlichen Denken.
Wissenschaftler nutzen diese Systeme häufig für Aufgaben wie die Literatursuche in verschiedenen Disziplinen und Sprachen sowie für die Navigation in komplexen mathematischen Beweisen. Diese Entwicklung reduziert die Arbeit, die normalerweise Tage oder Wochen dauert, oft auf nur wenige Stunden. Das Papier, Frühe wissenschaftliche Beschleunigungsexperimente mit GPT-5veröffentlicht im November 2025, liefert erste Hinweise darauf, dass GPT-5 wissenschaftliche Arbeitsabläufe deutlich beschleunigen kann.
Um die Fähigkeit von KI-Modellen, die wissenschaftliche Forschung zu beschleunigen, weiter zu messen und vorherzusagen, führten die Entwickler FrontierScience ein, einen neuen Benchmark zur Bewertung der wissenschaftlichen Fähigkeiten auf Expertenebene. Der Benchmark enthält Fragen, die von Experten aus Physik, Chemie und Biologie geschrieben und überprüft wurden, wobei der Schwerpunkt auf Originalität und Schwierigkeit liegt.
FrontierScience bietet zwei unterschiedliche Tracks:
- Olympiade: Misst die Fähigkeiten zum wissenschaftlichen Denken im Stil internationaler Olympiaden.
- Forschung: Bewertet reale wissenschaftliche Forschungskapazitäten.
In ersten Bewertungen erwies sich GPT-5.2 als das leistungsstärkste Modell sowohl bei FrontierScience-Olympiad mit 77 % als auch bei Analysis mit 25 %. Mit dieser Leistung liegt es vor anderen Spitzenmodellen, darunter Claude Opus 4.5 und Gemini 3 Professional. Die Ergebnisse deuten darauf hin, dass aktuelle Modelle Aspekte des strukturierten Denkens in der Forschung unterstützen können, obwohl noch erhebliche Anstrengungen unternommen werden müssen, um ihre Fähigkeiten zum ergebnisoffenen Denken zu verbessern.
FrontierScience umfasst über 700 Textfragen, davon 160 im Gold-Set, und deckt Teilgebiete der Physik, Chemie und Biologie ab. FrontierScience-Olympiad bietet 100 Fragen, die von 42 internationalen Olympia-Medaillengewinnern und Nationalmannschaftstrainern gemeinsam entworfen wurden. FrontierScience-Analysis umfasst 60 originelle Forschungsteilaufgaben, die von 45 promovierten Wissenschaftlern entwickelt wurden, darunter Doktoranden, Professoren und Postdoktoranden.
Für den Olympiad-Satz erfolgt die Benotung durch eine kurze Antwortüberprüfung. Für den Forschungsbereich bewertet eine auf Rubriken basierende Architektur mit einem 10-Punkte-Bewertungssystem offene Aufgaben. In dieser Rubrik werden sowohl die endgültige Antwort als auch die Zwischenschritte der Argumentation bewertet. Ein modellbasierter Grader, GPT-5, bewertet die Antworten anhand dieser Kriterien. Die Erstellung jeder Aufgabe erforderte die Auswahl anhand interner Modelle, was zu einer Verzerrung der Bewertungen anhand spezifischer Modelle führen kann.
Zu den wichtigsten Leistungsergebnissen gehören:
- FrontierScience-Olympiad-Genauigkeit:
- GPT-5.2: 77,1 %
- Gemini 3 Professional: 76,1 %
- Claude Opus 4,5: 71,4 %
- FrontierScience-Analysis-Genauigkeit:
- GPT-5.2: 25,2 %
- Claude Opus 4,5: 17,5 %
- Gruppe 4: 15,9 %
Längere Verarbeitungszeiten oder höherer Argumentationsaufwand korrelierten mit einer verbesserten Genauigkeit sowohl für GPT-5.2 als auch für OpenAI o3. Beispielsweise stieg die Genauigkeit von GPT-5.2 bei FrontierScience-Olympiad von 67,5 % bei „Niedrigem“ Argumentationsaufwand auf 77,1 % bei „XHoch“-Anstrengung. In ähnlicher Weise stieg bei FrontierScience-Analysis die Genauigkeit von GPT-5.2 von 18,2 % bei „Niedrig“ auf 25,2 % bei „XHoch“.
FrontierScience konzentriert sich derzeit auf eingeschränkte Problemstellungen und bewertet nicht die Generierung neuer Hypothesen oder Interaktionen mit multimodalen Daten. Entwickler planen, den Benchmark zu iterieren, ihn auf neue Bereiche auszudehnen und mehr reale Bewertungen zu integrieren, wenn sich die Modelle verbessern.
