Die weltweit erste Forschungs-LLM-Arena ist online gegangen. 23 Spitzenmodelle kämpfen hart um den Sieg: O3 gewinnt den ersten Platz, DeepSeek belegt den vierten Rang.
Heutzutage ist es für Forscher schon zur Gewohnheit geworden, große KI-Modelle bei der Schreibung von wissenschaftlichen Arbeiten zu nutzen.
Der ZIPDO 2025 Bildungsbericht zeigt, dass KI bereits nahtlos in 70 % der Forschungsgebiete integriert ist und innerhalb von fünf Jahren die Anzahl der relevanten wissenschaftlichen Publikationen um 150 % gesteigert hat.
Die KI rastet auf dem Weg der wissenschaftlichen Forschung voran, aber ein entscheidendes Problem bleibt seit langem ungelöst:
„Wie gut sind die wissenschaftlichen Fähigkeiten großer Modelle tatsächlich?“
Herkömmliche Benchmarks sind statisch und einseitig und können die erforderliche Fähigkeit zum Verständnis von Kontext und zur logischen Schlussfolgerung in wissenschaftlichen Aufgaben schwerlich messen.
Deshalb hat Ai2 in Zusammenarbeit mit der Yale University und der New York University SciArena, die Chatbot Arena der Wissenschaftsforschung, ins Leben gerufen und so die Ära der „Ringerkämpfe“ in der wissenschaftlichen KI eingeleitet!
Link zur Publikation: https://arxiv.org/pdf/2507.01001
Bis jetzt haben 23 der neuesten Sprachmodelle die Bühne von SciArena betreten, darunter Produkte von Techriesen wie OpenAI, Anthropic, DeepSeek und Google.
Unter ihnen führt OpenAI o3 mit einem deutlichen Vorsprung an und hat sich die Spitzenposition in wissenschaftlichen Aufgaben sichergestellt. Es liegt in allen wissenschaftlichen Bereichen an erster Stelle und liefert technisch fundigere Erklärungen in Publikationen.
Andere Modelle zeichnen sich in verschiedenen Bereichen aus:
Zum Beispiel ist Claude-4-Opus in medizinischen und gesundheitlichen Fragen sehr stark, während DeepSeek-R1-0528 in den Naturwissenschaften hervorsticht.
Interessanterweise wurde SciArena kurz nach seiner Veröffentlichung von Nature besonders berichtet und als „neues Fenster zur Erklärung der Wissensstruktur großer Modelle“ gefeiert.
Jetzt schauen wir uns an, warum SciArena ein zuverlässiges Mittel zur Beurteilung der wissenschaftlichen Fähigkeiten von Basis-Modellen ist.
SciArena: Das neue „Prüfstein“ für wissenschaftliche KI
SciArena ist die erste offene Bewertungsplattform für große Modelle, die speziell für wissenschaftliche Literaturaufgaben entwickelt wurde.
Hier können Forscher die Leistung verschiedener Basis-Modelle bei der Bearbeitung wissenschaftlicher Literaturaufgaben vergleichen und abstimmen.
Das Team hat einen Crowdsourcing-Mechanismus in der Art von Chatbot Arena eingeführt, der anonym und doppelt blind ist, um die großen Modelle anhand echter wissenschaftlicher Fragen zu testen.
SciArena ist speziell auf die Komplexität und Offenheit wissenschaftlicher Untersuchungen optimiert und löst das Problem der Unwirksamkeit allgemeiner Benchmarks in wissenschaftlichen Szenarien.
Die Plattform besteht hauptsächlich aus drei Kernkomponenten:
Die SciArena-Plattform: Forscher stellen hier Fragen und können die Antworten verschiedener Basis-Modelle nebeneinander sehen und ihre bevorzugte Ausgabe auswählen.
Die Rangliste: Die Plattform verwendet das Elo-System, um die Modelle dynamisch zu bewerten und so einen Echtzeit-Bericht über die Leistung bereitzustellen.
SciArena-Eval: Ein Meta-Benchmark-Set, das auf den von der SciArena-Plattform gesammelten menschlichen Präferenzdaten basiert. Sein Hauptziel ist es, die Genauigkeit von Modellen bei der Vorhersage menschlicher Präferenzen zu testen.
Hinter den Duellen: Die Bewertungsmechanismen enthüllt
Von der Frage bis zur Abstimmung: Der komplette Bewertungsprozess von SciArena
Der Arbeitsablauf von SciArena umfasst drei Schritte: die Suche nach wissenschaftlichen Publikationen, die Abfrage der Modelle und die Nutzerbewertung.
Im Vergleich zu allgemeinen Fragen ist die größte Hürde bei wissenschaftlichen Fragen die Notwendigkeit, auf fundierte wissenschaftliche Literatur zu verweisen.
Um die Qualität und Relevanz der gesuchten Informationen sicherzustellen, hat das Team das Scholar QA-System des Allen Institute for AI adaptiert und eine fortschrittliche mehrstufige Suchpipeline aufgebaut.
Diese Pipeline umfasst mehrere Schritte, wie die Aufteilung der Abfrage, die Suche nach Absätzen und die Neuordnung der Ergebnisse.
Nachdem die Plattform eine vom Nutzer gestellte Frage erhalten hat, startet sie die Pipeline, um relevante wissenschaftliche Publikationen als Kontext zu suchen.
Anschließend sendet die Plattform den Kontext und die Nutzerfrage an zwei zufällig ausgewählte Basis-Modelle.
Die beiden Modelle generieren jeweils detaillierte Antworten mit standardisierten Zitaten.
Die Plattform verarbeitet beide Antworten einheitlich in ein standardisiertes reines Textformat, um zu vermeiden, dass Nutzer die Antwortstile der Modelle erkennen können.
Schließlich bewerten die Nutzer die beiden reinen Textausgaben und wählen ihre bevorzugte Antwort ab.
Es ist zu beachten, dass SciArena sich hauptsächlich auf die horizontal vergleichbaren „allgemeinen Basis-Modelle“ konzentriert.
Maßgeschneiderte Agenten wie OpenAI Deep Research oder proprietäre Forschungssysteme sind nicht Teil der Plattform.
102 Experten, 13.000 Stimmen
Um eine genaue Bewertung zu erhalten, müssen die Daten zuverlässig sein.
Das SciArena-Team ist bei der Überprüfung der Daten extrem streng.
In den ersten vier Monaten nach der Veröffentlichung der Plattform sammelten sie über 13.000 Stimmen von 102 Experten aus verschiedenen wissenschaftlichen Bereichen.
Diese 102 Experten sind keine Zufallsbeteiligten, sondern Doktoranden, die im Durchschnitt über zwei wissenschaftliche Publikationen verfügen.
Außerdem haben alle Annotatoren eine einstündige Online-Schulung erhalten, um die Einheitlichkeit der Bewertungsstandards sicherzustellen.
Zusammen mit dem doppelt blinden Bewertungs- und Abstimmungsmechanismus ist jede Bewertungsergebnis von SciArena fundiert.
Unter den hohen Standards und strengen Anforderungen von SciArena hat die Plattform eine sehr hohe Selbstkonsistenz der annotierten Daten (gewichteter Cohen-Kappa-Koeffizient κ = 0,91) und eine relativ hohe Übereinstimmung zwischen den Annotatoren (κ = 0,76).
Diese über 13.000 Stimmen bilden eine zuverlässige Grundlage für die Bewertung auf der SciArena-Plattform.
Die stärkste KI versteht die Forscher nicht
Auf der SciArena-Plattform hat das Forschungsteam eine automatische Bewertungsmethode, die „Modell bewertet Modell“, anhand des Meta-Benchmark-Sets SciArena-Eval getestet:
Ein Bewertungsmodell bekommt eine wissenschaftliche Frage und die Antworten von zwei anderen Modellen und soll erraten, welche Antwort von Menschen bevorzugt wird.
Das Ergebnis ist enttäuschend.
Selbst das am besten abschneidende o3-Modell hat nur eine Genauigkeit von 65,1 %, während Modelle wie Gemini-2.5-Flash und die LLaMA-4-Serie fast genauso genau wie ein Münzwurf sind.
Im Vergleich dazu erreichen die Bewertungsmodelle in allgemeinen Bereichen wie AlpacaEval und WildChat eine Genauigkeit von über 70 %. Wissenschaftliche Aufgaben scheinen also viel schwieriger zu sein.
Es scheint also nicht einfach zu sein, dass Modelle die Präferenzen von Forschern verstehen.
Aber es gibt auch positive Aspekte.
Modelle mit verbesserter Schlussfolgerungsfähigkeit sind im Allgemeinen besser darin, die Qualität von Antworten zu beurteilen.
Zum Beispiel hat o4-mini eine 2,9 % höhere Genauigkeit als GPT-4.1, und DeepSeek-R1 schlägt auch sein eigenes Modell DeepSeek-V3.
Das zeigt, dass KI, die in der Lage ist zu schließen, die Essenz wissenschaftlicher Fragen besser versteht.
Das Forschungsteam sagt, dass SciArena-Eval in Zukunft möglicherweise zum neuen Standard für die Bewertung wissenschaftlicher KI wird.
Es kann uns helfen, zu verstehen, ob KI wirklich die Gedanken von Forschern versteht.
Quellen:
https://allenai.org/blog/sciarena
https://arxiv.org/pdf/2507.01001
https://the-decoder.com/sciarena-lets-scientists-compare-llms-on-real-research-questions/
Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Autor: New Intelligence Yuan, Redakteur: Beaver So Sleepy. Veröffentlicht von 36Kr mit Genehmigung.