Neueste Titelseiten von Spitzenzeitschriften wie Nature als Datensatz: Prüfung der wissenschaftlichen Argumentationsfähigkeit von KI-Modellen zur Verhinderung automatischer Aufgabenlösung

Das Open-Source-Modell Qwen2.5-VL-7B hat nur eine Genauigkeit von 56,8 %.

In den letzten Jahren haben multimodale Großmodelle, repräsentiert durch GPT - 4o und Gemini 2.5 Pro, in verschiedenen Benchmark - Tests (z. B. MMMU) wiederholt Erfolge erzielt und die Ranglisten besetzt.

Allerdings haben diese beeindruckenden Fortschritte auch ein immer drängenderes Problem mit sich gebracht: Wenn die bestehenden "Fragenkürze" allmälich in die Modelle vorausgehend vortrainiert werden, wie können wir die echten Fähigkeiten dieser Spitzen - KI - Systeme kontinuierlich und genau bewerten?

Um diese Herausforderung zu meistern, hat das Forschungsteam von Professor Wang Dequan der Shanghai Jiao Tong Universität geschickt die Idee des "dynamischen Benchmarks" mit der sich ständig weiterentwickelnden wissenschaftlichen Spitze kombiniert und den MAC (Multimodal Academic Cover) - Benchmark vorgeschlagen: Da sich das wissenschaftliche Wissen ständig weiterentwickelt, warum sollten wir nicht die neuesten wissenschaftlichen Inhalte nutzen, um die KI zu testen?

Das Forschungsteam hat die neuesten Titelbilder von 188 Top - Zeitschriften wie "Nature", "Science" und "Cell" als Testmaterial genutzt und aus über 25.000 Bild - Text - Paaren einen Testdatensatz erstellt. Diese Zeitschriften erscheinen wöchentlich oder monatlich, und jedes Titelbild wird von Spitzenwissenschaftlern und professionellen Redakteuren sorgfältig gestaltet und enthält die neuesten und komplexesten wissenschaftlichen Konzepte. Somit wird bewertet, ob multimodale Großmodelle die tieferen Zusammenhänge zwischen den visuellen Elementen der künstlerischen Darstellung und den wissenschaftlichen Konzepten verstehen können.

Es wurde festgestellt, dass Spitzenmodelle wie GPT - 5 - thinking bei der Bewältigung dieser neuesten wissenschaftlichen Inhalte überraschende Einschränkungen aufweisen. Das am besten abschneidende Step - 3 erreichte nur eine Genauigkeit von 79,1 %, und das Open - Source - Modell Qwen2.5 - VL - 7B nur 56,8 %.

Diese Studie wird auf der Language Model Conference (COLM) 2025 präsentiert werden.

Testdesign: Sorgfältig geplante "semantische Fallen"

Die zentrale Herausforderung des MAC besteht darin, sicherzustellen, dass die KI nicht durch oberflächliche visuelle Merkmale die richtigen Antworten "erraten" kann, sondern eine tiefere Verständnis der wissenschaftlichen Konzepte entwickelt.

Die Forscher haben zwei Testaufgaben entworfen:

Bild - Text - Auswahl: Es wird ein Zeitschriften - Titelbild gezeigt, und es muss der passende Text aus vier Titelgeschichten ausgewählt werden;
Text - Bild - Auswahl: Es wird eine Titelgeschichte gegeben, und es muss das am besten passende Bild aus vier Titelbildern ausgewählt werden.

Der Schüssel liegt im Design der "Fallen". Um zu verhindern, dass die KI anhand von oberflächlichen Merkmalen antwortet, haben die Forscher mit fortschrittlichen Einbettungsmodellen (z. B. CLIP) sorgfältig drei "semantische Störungen" ausgewählt, so dass sie auf den ersten Blick sehr ähnlich wie die richtige Antwort aussehen. Nur eine KI, die die wissenschaftlichen Konzepte wirklich versteht, kann die richtige Wahl treffen.

Nehmen wir zum Beispiel an, die richtige Titelgeschichte handelt von "Mechanismen der Krebsresistenz". Dann könnten die Störungen "Entstehungsmechanismen des Krebses" oder "Krebszellen" sein - alle mit Krebs verbunden, aber vollkommen unterschiedliche wissenschaftliche Konzepte.

Obwohl Spitzenmodelle wie GPT - 5 - thinking und Gemini 2.5 Pro die visuellen Elemente wie "Pillen" und "Rezeptscheine" auf den Auswahlbildern genau identifizieren können, konnten sie diese Elemente nicht mit den zentralen wissenschaftlichen Konzepten wie "Resistenz" oder "Krebsbehandlungsmechanismen" in der Titelgeschichte verbinden, was am Ende zu falschen Antworten führte.

Überdies haben die Forscher auch den MAC - 2025 - Jahres - Snapshot erstellt, der speziell die neuesten Zeitschrifteninhalte von Januar 2024 bis Februar 2025 auswählt und jährlich aktualisiert werden soll, um das Problem der Datenkontamination bei der Bewertung möglichst zu reduzieren und sicherzustellen, dass auch die neuesten Modelle genug Herausforderungen bekommen.

Spitzen - KI kann auch "Verständnisfehler" machen

Das Forschungsteam hat mit dem MAC - 2025 - Testdatensatz eine umfassende Bewertung von branchenführenden Modellen wie GPT - 4o und Step - 3 durchgeführt.

Das Ergebnis war überraschend: Selbst das am stärksten abschneidende Step - 3 erreichte nur eine Genauigkeit von 79,1 %, was im krassen Kontrast zu ihrer fast perfekten Leistung in anderen Benchmarks steht. Noch interessanter ist, dass das Open - Source - Modell Qwen2.5 - VL - 7B nur eine Genauigkeit von 56,8 % erreichte.

Außerdem haben Fallstudien an GPT - 5 - thinking und Gemini 2.5 Pro eine zentrale Einschränkung der gegenwärtigen multimodalen KI aufgezeigt: Obwohl sie in der visuellen Erkennung bereits sehr gut sind, gibt es immer noch einen beträchtlichen Abstand zur menschlichen Ebene bei Aufgaben, die eine tiefergehende intermodale logische Schlussfolgerung und wissenschaftliches Verständnis erfordern.

DAD - Methode: Lehren der KI "Schrittweise zu denken"

Angesichts dieser Herausforderung hat das Forschungsteam nicht nur das Problem erkannt, sondern auch eine Lösung in Form der DAD - Methode vorgeschlagen.

Der Kerngedanke der DAD ist die "Aufgabenteilung und Zusammenarbeit":

Beschreibungsstufe: Ein multimodales Großmodell (z. B. GPT - 4o) beschreibt das Titelbild detailliert visuell und erzeugt eine Pseudothinking - Chain;
Schlussfolgerungsstufe: Das Beschreibungsergebnis und die ursprüngliche Frage werden an ein spezielles sprachliches Schlussfolgerungsmodell übergeben, das dann eine höhere - Ebene - Analyse durchführt und die endgültige Wahl trifft.

Diese strukturierte Zweistufenmethode hat die Leistung der Modelle erheblich verbessert. Die Experimente haben gezeigt, dass die Genauigkeit mehrerer Modelle nach der Anwendung der DAD - Methode deutlich verbessert wurde, was die Wirksamkeit der Erweiterung der Schlussfolgerungszeit bei multimodalen wissenschaftlichen Verständnisaufgaben beweist.

Interessanterweise simuliert diese Art des "erst Sehen, dann Denken" in gewisser Weise den Denkprozess menschlicher Experten bei der Bewältigung komplexer wissenschaftlicher Probleme - zuerst sorgfältig die Phänomene beobachten und dann in Verbindung mit dem Hintergrundwissen eine tiefgehende Analyse durchführen.

Doppelter dynamischer Mechanismus: Sicherstellung einer kontinuierlichen Herausforderung

Das größte Problem bei traditionellen Benchmark - Tests ist, dass sie "einmalig" sind - nach der Publikation bleibt der Inhalt fest, und die Modelle lernen ihn schnell. Der MAC schlägt durch zwei Mechanismen, nämlich dynamische Daten und dynamisches Problem - Aufbauen, ein Paradigma für den Aufbau eines dynamischen Benchmarks vor:

Dynamische Daten: Natürliche Schwierigkeitserhöhung durch den Zeitverlauf

Das Forschungsteam hat ein geschicktes Vergleichsexperiment durchgeführt: Die Modelle wurden auf frühen Zeitschriften - Daten (MAC - Old) und auf den neuesten Daten (MAC - 2025) getestet. Es wurde festgestellt, dass alle Modelle bei der Verarbeitung von neuem Wissen eine deutliche Leistungseinbuße zeigten.

Dies zeigt, dass die natürliche Weiterentwicklung des wissenschaftlichen Wissens an sich eine kontinuierliche Herausforderung für Benchmark - Tests bieten kann. Mit der ständigen Entstehung neuer Theorien, Entdeckungen und Technologien werden auch die wissenschaftlichen Konzepte, die auf den Zeitschriften - Titelbildern dargestellt werden, ständig aktualisiert, was natürlich neue Prüfungen für KI - Modelle darstellt.

Dynamisches Problem - Aufbauen: Nutzung der neuesten KI - Technologien zur Erhöhung der Testschwierigkeit

Noch interessanter ist der zweite Mechanismus: Die Forscher haben den Inhalt der MAC - 2025 - Aufgaben unverändert gelassen und nur mit einem stärkeren Einbettungsmodell (z. B. SigLip2, das gleichzeitig mit der Publikation der Studie erschien) die semantischen Störungen neu generiert.

Die Ergebnisse zeigen, dass die Genauigkeit aller Modelle weiter gesunken ist. Dies zeigt ein interessantes Phänomen auf: Der Fortschritt in der KI - Branche kann nicht nur die Fähigkeiten der Modelle verbessern, sondern auch die Testschwierigkeit gleichzeitig erhöhen.

Wenn wir bessere Werkzeuge für das semantische Verständnis haben, können wir feinere "Fallen" konstruieren, um die Benchmark - Tests immer an der Spitze der technologischen Entwicklung zu halten. Die Kombination dieser beiden Mechanismen stellt sicher, dass der MAC mit der wissenschaftlichen Entwicklung und der Entwicklung der KI - Technologie "Schritt halten" kann und das Problem der Veraltbarkeit traditioneller statischer Benchmarks vermeidet.

In Zukunft hat der MAC - Benchmark das Potenzial, sich zu einer noch besser ausgebauten Bewertungsplattform zu entwickeln. Das Forschungsteam plant, nicht nur auf mehr wissenschaftliche Zeitschriften auszuweiten, sondern auch andere Formen dynamischer wissenschaftlicher Inhalte hinzuzufügen, wie die neuesten Tagungsbeiträge, wissenschaftliche Nachrichten usw.

Zugleich muss der MAC - Benchmark selbst durch eine jährliche kontinuierliche Publikation seine kontinuierliche Weiterentwicklung erreichen, um mit der raschen Entwicklung der KI - Technologie Schritt zu halten.

Wenn die Fähigkeiten der KI sich der menschlichen Nähern, bedürfen wir genau eines solchen "Prüfsteins", der sich mit der wissenschaftlichen Entwicklung und dem technologischen Fortschritt weiterentwickelt, damit wir die Fähigkeitsgrenzen der KI realistischer verstehen und den Weg zur echten Intelligenz deutlicher erkennen können.

Autoreneinführung

Der erste Autor des Papers ist Jiang Mohan, ein Doktorand an der Shanghai Jiao Tong Universität. Sein Forschungsgebiet umfasst multimodale Großmodelle, Großmodell - Agenten usw.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。