首页文章详情

Große Modelle streben nach Sternen und Ozeanen. GPT und Gemini holen Goldmedaillen bei der Internationalen Astronomischen Olympiade.

机器之心2025-10-13 17:17
Mit KI Sterne beobachten.

Künstliche Intelligenz entwickelt sich wirklich rasant. Am Morgen habe ich eine Kommentierung eines Internetbenutzers gelesen: Es ist bereits 0 Tage her, seitdem es keinen aufsehenerregenden neuen Durchbruch im Bereich KI gab.

Ich erinnere mich, dass OpenAI vor drei Monaten angekündigt hat, dass ihr Inferenzmodell bei der Internationalen Mathematikolympiade (IMO) eine Goldmedaille gewonnen hat.

Heute sieht es so aus, dass die großen Modelle nicht nur im mathematischen Bereich eine starke Inferenz- und Generalisierungsfähigkeit haben, sondern auch in vielen anderen wissenschaftlichen Forschungsbereichen hervorragend abschneiden.

Es ist bemerkenswert, dass die derzeit führenden großen Modelle alle beeindruckende Ergebnisse bei verschiedenen Olympiaden erzielen können.

Gerade in einer kürzlich veröffentlichten Studie wurde die Internationale Astronomie- und Astrophysikolympiade (IOAA) als Benchmark eingesetzt, um zu beweisen, dass die beiden Modelle GPT-5 und Gemini 2.5 Pro in Astronomie und Astrophysik Olympiade-Goldmedaille-Ergebnisse erzielen können.

Greg Brockman, Präsident und Mitbegründer von OpenAI, hat diese Arbeit weitergeleitet und war so aufgeregt, dass er sogar den Namen von GPT falsch geschrieben hat:

Eines Tages, wenn die Menschheit in den Weltraum vorstößt, werden auch die Spuren von großen KI-Modellen sichtbar sein.

  • Titel der Studie: Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
  • Link zur Studie: https://arxiv.org/abs/2510.05016

Warum die IOAA gewählt wurde

Das Auftauchen von großen Sprachmodellen hat neue Möglichkeiten für die künstliche Intelligenz in der wissenschaftlichen Forschung, insbesondere im Bereich Astronomie und Astrophysik, eröffnet. Obwohl die traditionellen maschinellen Lernmethoden in der Astronomie in Mustererkennungsaufgaben (wie Objektklassifizierung und Anomalieerkennung) hervorragend abschneiden, fehlt ihnen oft die Allgemeingültigkeit und die Fähigkeit zur komplexen Inferenz, die für die Lösung komplexer wissenschaftlicher Probleme erforderlich sind.

Die derzeitigen Benchmarks zur Bewertung von LLMs im astronomischen Bereich, wie AstroBench und Astro-QA, konzentrieren sich hauptsächlich auf einfache Fragestellungen in Form von Multiple-Choice- oder Kurzfragen, um astronomische Kenntnisse zu testen. Diese Bewertungen können die komplexe Inferenz, die kreative Problemlösung und die Fähigkeit zur erweiterten Ableitung, die in der realen astronomischen Forschung unerlässlich sind, nicht bewerten. Diese Studie behebt diese entscheidende Lücke, indem sie einen strengeren und umfassenderen Bewertungsrahmen einführt.

Die Forscher haben die Aufgaben der Internationalen Astronomieolympiade (IOAA) von 2022 bis 2025 als Hauptbenchmark gewählt. Diese Wahl basiert auf drei Schlüsselfaktoren:

Erstens haben die IOAA-Aufgaben im Vergleich zu bestehenden Benchmarks wie AstroBench und Astro-QA von AstroMLab, die hauptsächlich auf Multiple-Choice-, Kurz- oder Ja/Nein-Fragen zur Prüfung astronomischer Kenntnisse basieren, eine höhere ökologische Validität, da sie die komplexe Inferenz, die kreative Problemlösung und die mehrstufige Ableitung erfordern, die in der realen astronomischen Forschung benötigt werden.

Zweitens decken die IOAA-Aufgaben gemäß dem offiziellen Leitfaden ein breites Spektrum astronomischer Themen ab, einschließlich Kosmologie, Sphärische Trigonometrie, Sternenastrophysik, Astrophysikmechanik, Photometrie und Beobachtungsinstrumentenkunde, was die Umfassheit der Bewertung gewährleistet.

Schließlich kombiniert die IOAA theoretische Physik, Beobachtungseinschränkungen und reale astronomische Daten mit mathematischer Ableitung und bietet somit eine neue Bewertungsart, die sich von anderen Olympiaden wie der IMO, IPhO und IOI unterscheidet und zur Prüfung der komplexen Fähigkeiten von LLMs bei der Lösung wissenschaftlicher Probleme eingesetzt werden kann.

Die Bewertung konzentriert sich auf zwei Bestandteile der IOAA: die theoretischen Fragen (insgesamt 49) und die Datenanalysefragen (insgesamt 8). Die theoretischen Fragen werden in zwei Kategorien aufgeteilt: Kategorie I (geometrisch/räumlich, erfordert Himmelsgeometrie und Sphärische Trigonometrie) und Kategorie II (physikalisch/mathematisch, konzentriert sich auf astrophysikalische Berechnungen, ohne geometrische Visualisierung). Aufgrund der digitalen Natur von LLMs wurde der Beobachtungsteil ausgeschlossen.

Goldmedaille-Ergebnisse

Leistung von LLMs bei den theoretischen und Datenanalysefragen der IOAA in verschiedenen Schwierigkeitskategorien. Alle Punkte sind als Prozentwerte relativ zum Gesamtscore angegeben.

Theoretische Prüfung

Wie in der Tabelle gezeigt, haben GPT-5 und Gemini 2.5 Pro in der theoretischen Prüfung die besten Ergebnisse erzielt und liegen 7 - 25 Prozentpunkte vor den anderen Modellen. Genauer gesagt hat GPT-5 in den Jahren 2022 (93,0%), 2023 (89,6%) und 2025 (86,8%) die höchsten Punktzahlen erreicht, während Gemini 2.5 Pro 2024 mit 83,0% an der Spitze lag.

Obwohl GPT-5 insgesamt stark abgeschnitten hat, haben wir festgestellt, dass es in schwierigen Aufgaben besser abgeschnitten hat als in einfachen und mittelmäßigen Aufgaben. Unsere Analyse zeigt, dass diese scheinbar ungewöhnliche Schwankung hauptsächlich auf drei Faktoren zurückzuführen ist:

1. Die geringe Anzahl von Aufgaben in jeder Schwierigkeitsstufe führt zu natürlichen Schwankungen in der Modellleistung. Es gibt nur 10 einfache Aufgaben und 11 mittelmäßige Aufgaben, deren Gesamtscore jeweils etwa 185 und 151 Punkte beträgt, während der Gesamtscore 1200 Punkte beträgt. Daher können bereits wenige Fehler die Punktzahl in dieser Schwierigkeitsstufe erheblich beeinflussen.

2. GPT-5 hat in den Aufgaben von 2024 mehrere kritische Fehler gemacht, von denen ein Großteil auf Aufgaben konzentriert war, die geometrische Inferenz und räumliche Vorstellungskraft erfordern (siehe Abschnitt 3.2).

3. GPT-5 macht gelegentlich Fehler in astrophysikalischen Konzeptaufgaben. Beispielsweise hat GPT-5 in Aufgabe 9 der Prüfung von 2024 (eingestuft als einfache Aufgabe) aufgrund eines konzeptionellen Fehlers und eines Rechenfehlers 18 Punkte verloren, was fast 10% des Gesamtscores der einfachen Aufgaben entspricht.

Andere Modelle haben auch eine gewisse Wettbewerbsfähigkeit gezeigt: OpenAI o3 hat einen Gesamtscore von 77,5% erzielt und liegt stabil 13 - 17 Prozentpunkte vor der Claude-Serie, wobei Claude Opus 4.1 64,7% und Claude Sonnet 4 60,6% erreicht hat. Darüber hinaus nimmt ihre Leistung mit zunehmender Schwierigkeit ab. Obwohl diese drei Modelle in einfachen Benchmarks wie AstroMLab ähnliche oder sogar hervorragende Ergebnisse erzielen, zeigt unsere Bewertung, dass es bei der Lösung komplexer Probleme noch erhebliche Fähigkeitsunterschiede gibt. Dieses Ergebnis deutet darauf hin, dass zur echten Bewertung des wissenschaftlichen Forschungspotenzials von LLMs im astronomischen Bereich über die Aufgaben zur Wissenswiederholung hinausgegangen werden muss und ein umfassenderer Bewertungsrahmen für die Fähigkeiten aufgebaut werden muss.

Datenanalyseprüfung

Obwohl die LLMs in der theoretischen Prüfung nahe an das Niveau der besten Menschen herankommen, kann die Datenanalyseprüfung ihre feinere Fähigkeitsstruktur und ihre Grenzen besser aufzeigen. GPT-5 hat in der Datenanalyse einen Durchschnittswert von 88,5% erzielt, was sogar besser ist als seine Leistung in der theoretischen Prüfung (84,2%). Dieser Anstieg steht im krassen Kontrast zu den anderen Modellen - die Datenanalysepunkte der anderen LLMs sind im Allgemeinen um 10 - 15 Prozentpunkte niedriger als in den theoretischen Aufgaben.

Diese Differenz stammt hauptsächlich von der Tatsache, dass die Datenanalyseaufgaben stark von der Bildauswertung, der Kurvenverstehen und der Datenvisualisierungsinferenz abhängen. GPT-5 hat eine stärkere multimodale Verstehensfähigkeit und hat eine deutlich niedrigere Fehlerrate bei der Bildanalyse und der Diagramminferenz, was direkt zu seiner besseren Leistung beiträgt.

Um die LLMs im astrophysikalischen Bereich weiter in Richtung eines wissenschaftlichen Forschungsagenten voranzubringen, betont unser Ergebnis, dass neben der ganzheitlichen Bewertung dringend ein Benchmark für die multimodale Datenanalyse mit ökologischer Validität erforderlich ist, um die Problemlösungsfähigkeit der Modelle in der realen wissenschaftlichen Forschung vollständig zu prüfen.

Vergleich mit menschlichen Ergebnissen

Um die Leistung der LLMs besser zu verstehen, haben wir ihre Punktzahlen mit den Ergebnissen der menschlichen Teilnehmer der IOAA unter den Medaille-Bewertungsstandards verglichen. Genauer gesagt werden die Medaillen basierend auf dem Verhältnis zur Medianpunktzahl verliehen (die Medianpunktzahl wird aus der Summe der Punkte in der theoretischen Prüfung, der Datenanalyseprüfung und der Beobachtungsprüfung berechnet): Wenn die Punktzahl zwischen 100% - 130% der Medianpunktzahl liegt, erhält man eine Bronzemedaille, zwischen 130% - 160% eine Silbermedaille und über 160% eine Goldmedaille. Da unser Bewertungsbereich die Beobachtungsaufgaben (observational) nicht umfasst, haben wir die entsprechenden Medaille-Schwellenwerte für die theoretische Prüfung und die Datenanalyseprüfung separat berechnet.

Die meisten LLMs haben die Goldmedaille-Schwelle überschritten. Der einzige Ausnahme ist Claude Sonnet 4, das 2023 nur eine Silbermedaille erhalten hat. Insbesondere ist zu beachten, dass GPT-5 in den Jahren 2022, 2023 und 2025 besser abgeschnitten hat als der beste Schüler der jeweiligen IOAA, während Gemini 2.5 Pro in den Jahren 2022 und 2023 ebenfalls dasselbe Niveau erreicht hat.

Vergleich der Leistung von LLMs und menschlichen Teilnehmern in der theoretischen Prüfung der IOAA (2022 - 2025).

Vergleich der Leistung von LLMs und menschlichen Teilnehmern in der Datenanalyseprüfung der IOAA (2022 - 2025).

Leistung der Modelle in verschiedenen Aufgabenkategorien der theoretischen Prüfung der IOAA. Kategorie I sind geometrisch/räumliche Aufgaben, Kategorie II sind physikalisch/mathematische Aufgaben. Alle Punkte sind als Prozentwerte angegeben.

Fehleranalyse

In der theoretischen Prüfung haben die großen Sprachmodelle in den Aufgaben der Kategorie II (physikalisch/mathematisch) (Genauigkeit von 67 - 91%) deutlich bessere Ergebnisse erzielt als in den Aufgaben der Kategorie I (geometrisch/räumlich) (Genauigkeit von 49 - 78%), wobei die Leistungsdifferenz 15 - 26 Prozentpunkte beträgt.

Der häufigste Fehlertyp sind konzeptionelle Fehler, die auf