OpenAI veröffentlicht autoritatives KI - Forschungsbenchmark: Goldmedaillengewinner bei Olimpiaden ≠ erstklassiger Wissenschaftler!

Je länger das Modell denkt, desto höher ist die Genauigkeit in der Regel.

Die kürzlich von OpenAI veröffentlichte FrontierScience-Benchmark versucht, KI-Systeme anhand realer Doktoratsaufgaben in den Bereichen Physik, Chemie und Biologie zu testen. Die Wahrheit ist hart: In der wissenschaftlichen Praxis, wo es keine eindeutigen Standardlösungen gibt, hat die KI, als „Top-Performer bei Prüfungen“, noch einen langen Weg bis hin zum echten Wissenschaftler zurückzulegen.

OpenAI hat am 16. Dezember 2025 eine neue Benchmark namens FrontierScience veröffentlicht, um zu messen, ob KI-Systeme in den Fächern Physik, Chemie und Biologie in der Lage sind, wissenschaftliche Schlussfolgerungen auf Expertenebene zu ziehen, anstatt einfach nur Fakten auswendig zu lernen.

OpenAI beschreibt in der Veröffentlichung die wissenschaftliche Arbeit als einen Prozess, der eher an „kontinuierliches Ausprobieren und Fehlerkorrigieren“ erinnert.

Hypothesen aufstellen, Tests entwerfen, sie widerlegen und neu beginnen, und auch Hinweise aus verschiedenen Bereichen zu einem Ganzen zusammenfügen.

Je stärker das Modell, desto schärfer wird die Frage, ob die KI diese tiefgehenden Schlussfolgerungen in die echte wissenschaftliche Forschung einbringen kann.

OpenAI erwähnt, dass ihr System im vergangenen Jahr auf der Internationalen Mathematik-Olympiade und der Internationalen Informatik-Olympiade eine goldmedaillelige Leistung erbrachte. Gleichzeitig ereigneten sich wichtigere Veränderungen im Labor und im Büro.

Forscher beginnen, diese Modelle für interdisziplinäre Literaturrecherchen, das Lesen von Artikeln in verschiedenen Sprachen und das Ableiten komplexer Beweise zu nutzen.

Manche Arbeiten, die ursprünglich Tage oder sogar Wochen in Anspruch genommen hätten, können jetzt in wenigen Stunden abgeschlossen werden.

Warum braucht man die FrontierScience-Benchmark? OpenAI gibt einen Vergleich.

Im November 2023, als die GPQA, ein wissenschaftliches Fragensatz, der von Doktoren und Experten erstellt wurde und sich auf Fragen konzentriert, die man nicht mit Google findet, veröffentlicht wurde, erreichte GPT-4 nur 39 %, was unter der Expertengrenze von 74 % lag.

Zwei Jahre später erreichte GPT-5.2 auf derselben Benchmark 92 %.

Wenn die alten Fragensätze allmählich erschöpft werden, muss die neue Messlatte länger sein, sonst kann man nicht erkennen, in welche Richtung das Modell noch entwickelbar ist.

Die FrontierScience-Benchmark ist so konzipiert, dass man das Modell zwei verschiedenen Arten von „wissenschaftlichen Herausforderungen“ aussetzt.

Eine Art ähnelt eher einem Wettbewerb und testet, ob man unter gegebenen Bedingungen schnelle und saubere Schlussfolgerungen ziehen kann.

Beispiel für eine Physik-Wettbewerbsaufgabe

Die andere Art ist eher der Forschungsrealität ähnlich und erfordert, dass man in offenen Fragen einen logischen Gedankengang entwickelt, auch wenn es keine perfekte Standardlösung gibt.

Beispiel für eine Physik-Forschungsaufgabe

Insgesamt umfasst diese Bewertung über 700 textbasierte Aufgaben, darunter 160 Aufgaben aus der „Gold Set“.

Im Wettbewerbsbereich gibt es 100 Aufgaben, die auf kurze Antworten abzielen, um die Richtigkeit einfach überprüfen zu können.

Im Forschungsbereich gibt es 60 originale Forschungsteilaufgaben, die von Doktoranden oder erfahrenen Forschern erstellt wurden. Die Bewertung erfolgt auf einer Skala von 0 bis 10 Punkten, und man muss mindestens 7 Punkte erreichen, um die Aufgabe zu bestehen.

Die Qualität der Aufgaben ist gut gesichert:

Für den Wettbewerbsbereich wurde mit 42 ehemaligen internationalen Medaillengewinner oder Nationalmannschaftslehrern zusammengearbeitet, die insgesamt 109 Olympiade-Medaillen gewonnen haben;

Für den Forschungsbereich haben 45 qualifizierte Wissenschaftler und Fachleute aus verschiedenen Bereichen, von der Quantenelektrodynamik über die Synthetische Organische Chemie bis hin zur Evolutionsbiologie, mitgewirkt.

OpenAI gibt auch einen nicht so „neutralen“ Aspekt zu.

Beim Erstellen der beiden Fragensätze werden bewusst Aufgaben ausgesondert, die die internen Modelle von OpenAI bereits richtig beantworten können. Daher könnte diese Bewertung für die eigenen Modelle von OpenAI strenger sein.

Zur gleichen Zeit haben sie die „Gold Set“-Aufgaben der beiden Bereiche open source gemacht, während die anderen Aufgaben beibehalten werden, um Datenkontamination zu verfolgen.

OpenAI sagt, dass kurze Antworten gut für die maschinelle Bewertung geeignet sind, aber Forschungsaufgaben erfordern eine feinere Skala. Deshalb verwenden sie GPT-5 als Korrektor und bewerten die kurzen Antworten Punkt für Punkt.

Im Idealfall würden Experten jede Aufgabe korrigieren, aber in der Realität ist die Skala zu groß. Deshalb wurden die Regeln so gestaltet, dass sie so objektiv wie möglich und von Modellen überprüfbar sind, und es gibt einen Validierungsprozess, um die Schwierigkeit und Richtigkeit zu kalibrieren.

OpenAI gibt in ihrer Auswertung einen ersten Vergleich.

Sie haben Modelle wie GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, GPT-4o, OpenAI o4-mini und OpenAI o3 bewertet. OpenAI sagt, dass GPT-5.2 in den Wettbewerbsaufgaben 77 % und in den Forschungsaufgaben 25 % erreicht hat und derzeit führt. Gemini 3 Pro erreichte in den Wettbewerbsaufgaben 76 % und folgt dicht hinterher.

Interessanter sind die Gründe für die Fehlschläge.

OpenAI kommt aus den Antworten zu dem Schluss, dass die modernsten Modelle immer noch Fehler in der Schlussfolgerung, Logik und Berechnung machen, sich an unbekannten Begriffen aufhalten und Tatsachenfehler machen können.

Eine andere einfache Beobachtung, die auch in der Veröffentlichung erwähnt wird, ist, dass Modelle, die länger über eine Aufgabe nachdenken, in der Regel eine höhere Genauigkeit erreichen.

OpenAI spricht auch offen über die Grenzen der FrontierScience-Benchmark.

Es zerlegt die Forschung in kontrollierbare Aufgaben, was die Bewertung standardisierter macht, aber es bedeutet auch, dass es eher wie ein hochauflösendes Screenshot ist, als wie ein Dokumentarfilm über die gesamte Forschung.

Insbesondere wird nicht evaluiert, ob das Modell wirklich neue Hypothesen aufstellen kann, und es deckt auch nicht die Fähigkeit ab, mit multimodalen Daten und realen Experimentalsystemen umzugehen.

OpenAI plant, die Fragensätze zu aktualisieren, die Bereiche zu erweitern und mehr reale Welt-Bewertungen durchzuführen, um zu sehen, was diese Systeme den Wissenschaftlern wirklich ermöglichen.

Eine Olympiade-Goldmedaille ist nicht gleichbedeutend mit einem erstklassigen Wissenschaftler. Die KI hat noch einen langen Weg bis hin zu einem echten, eigenständigen Wissenschaftler zurückzulegen.

Quelle:

https://openai.com/index/frontierscience/

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Autor: New Intelligence Yuan. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

OpenAI hat ein autoritatives KI-Forschungsbenchmark veröffentlicht und den Schleier von der KI gezogen: Ein Goldmedaillengewinner bei den Olimpiaden ≠ ein erstklassiger Wissenschaftler