Hinter dem Zeugnis der künstlichen Intelligenz verbirgt sich ein chinesischer „Aufgabensteller“

KI, du musst dem Tiger beweisen, dass du klug bist

Bei jeder Veröffentlichung eines führenden Modells schaut die Künstliche-Intelligenz-Szene auf einige vertraute Leistungstabellen.

MMLU-Pro, MMMU, MMMU-Pro … diese Namen sind für normale Benutzer etwas fremd, aber für Modellunternehmen und Forscher sind sie fast zu „Standardfächern“ geworden. GPT, Claude, Gemini, Llama, Qwen, DeepSeek und andere legen ständig ihre Leistungen in diesen Benchmarks vor.

„Man muss den Esel aus dem Stall holen“, wie man so schön sagt. Wie gut ein Modell ist, wird oft anhand dieser Punktzahlen bewertet.

Viele Leistungsvergleichsdiagramme auf Modell-Pressereisen können ohne sie nicht auskommen; einige Ranglisten auf HuggingFace basieren ebenfalls auf diesen Bewertungssystemen. Man kann sogar sagen, dass die KI-Branche heute bei der Diskussion über die Fähigkeiten von Modellen eine gemeinsame Sprache verwendet, die von diesen Benchmarks definiert wird.

Interessanterweise interessiert sich fast jeder für die Punktzahlen, aber nur wenige wissen, wer die Fragen stellt. Hinter MMLU-Pro, MMMU und MMMU-Pro verbirgt sich immer der gleiche Name – Chen Wenhu.

Er ist Assistentprofessor am Fachbereich Informatik der Universität Waterloo in Kanada. Auf Google Scholar wurden seine Artikel über 30.000 Mal zitiert.

Er ist auch der Gründer des „TIGERLab“ (Text and Image GEnerative Research Lab). Weil der Name ein „Tiger“ enthält, hat Chen Wenhu ihm einen sehr markanten chinesischen Namen gegeben – die Tiger-Gruppe.

01 Nachdem die alten Prüfungen nicht mehr funktionieren

Chen Wenhu wurde zuerst von mehr Menschen bemerkt, wegen MMLU-Pro.

MMLU war einst einer der am häufigsten verwendeten Benchmarks zur Bewertung der Fähigkeiten von großen Sprachmodellen. Es ist wie ein Komplett-Test, der mehrere Fächer abdeckt und dazu dient, die Leistung eines Modells bei der Wissensverstehens- und Schlussfolgerungsaufgabe zu messen.

Zu Beginn war dieser Test sehr nützlich. Die Unterschiede zwischen den Modellen konnten anhand der Punktzahlen deutlich gemacht werden, und die Branche konnte dadurch beobachten, ob die großen Sprachmodelle tatsächlich Fortschritte machten.

Aber bald traten Probleme auf.

Mit der stetigen Verbesserung der Modellfähigkeiten wurde MMLU allmählich „nicht mehr herausfordernd genug“. Die Punktzahlen der führenden Modelle wurden immer höher, und die Unterschiede zwischen ihnen immer kleiner.

Nach der Veröffentlichung von o3 durch OpenAI wurde dieses Problem noch deutlicher. Die Genauigkeit von o3 bei MMLU lag nahezu bei 100%, und andere führende Modelle legten ebenfalls nahezu perfekte Leistungen vor.

Dies klingt wie eine gute Nachricht, aber für die Bewertung bedeutet es eher Probleme.

Wenn alle bei einem Test nahezu perfekte Punktzahlen erzielen, ist es schwierig, zu entscheiden, wer stärker ist und worin die Stärke liegt. Es kann zwar weiterhin beweisen, dass ein Modell bestimmte Fähigkeiten hat, aber es eignet sich nicht mehr, um neue Fortschritte zu messen.

Die KI-Branche braucht einen schwierigeren und schwieriger zu „bluffen“-Test.

Im Jahr 2024 haben Chen Wenhu und sein Team MMLU-Pro eingeführt.

MMLU-Pro hat diesen Test neu gestaltet, anstatt einfach nur die Fragendatenbank zu erweitern.

Es enthält 12.032 Fragen, die 14 Bereiche wie Mathematik, Physik, Chemie, Recht, Ingenieurwesen, Psychologie, Gesundheit usw. abdecken. Im Vergleich zum ursprünglichen MMLU wurden die Antwortoptionen von 4 auf 10 erweitert, um die Wahrscheinlichkeit zu verringern, dass ein Modell die richtige Antwort durch Raten findet; gleichzeitig wurden mehr Fragen hinzugefügt, die auf Schlussfolgerungen basieren, und die relativ einfachen, mehrdeutigen oder nicht ausreichend differenzierenden Fragen aus der ursprünglichen Fragendatenbank entfernt.

Die Wirkung war direkt.

Die Ergebnisse der Studie zeigen, dass die Genauigkeit der Modelle bei MMLU-Pro im Vergleich zum ursprünglichen MMLU um 16% bis 33% gesunken ist. Bei der Testung eines Modells in 24 verschiedenen Hinweisswortstilen sank die Schwankung der Ergebnisse von 4% bis 5% beim ursprünglichen MMLU auf etwa 2%.

Das heißt, dieser neue Test ist nicht nur schwieriger, sondern auch stabiler.

Er hat die Unterschiede zwischen den Modellen, die auf den alten Tests alle sehr gut ausgesehen haben, wieder sichtbar gemacht. Es ist nun leichter zu erkennen, ob ein Modell wirklich in der Lage ist, zu schließen, oder ob es nur besser darin ist, die alten Fragen zu beantworten.

02 Nützliche Benchmark-Bewertungen

MMLU-Pro wurde schnell von der Branche übernommen.

MMLU-Pro ist anschließend in den Datensatz- und Benchmark-Bewertungs-Wettbewerb von NeurIPS 2024 eingegangen und wurde auch in das Sprachmodell-Bewertungsframework lm-evaluation-harness von EleutherAI integriert. Für die Open-Source-Modell-Community bedeutet dies, dass es nicht mehr nur ein Datensatz in einer Studie ist, sondern in die gängigen Bewertungswerkzeuge integriert wurde.

Viele Modelle berichten bei ihrer Veröffentlichung nun über ihre MMLU-Pro-Punktzahlen. Einige Ranglisten auf HuggingFace haben es ebenfalls in ihr Bewertungssystem aufgenommen.

Wenn MMLU-Pro das Problem der „nicht mehr funktionierenden alten Prüfungen“ bei der Bewertung von Sprachmodellen löst, dann hat MMMU Chen Wenhu und das TIGERLab in das Zentrum der Multimodal-Bewertung gebracht.

Das Problem bei Multimodal-Modellen ist komplexer.

Sprachmodelle bearbeiten hauptsächlich Texte bei der Beantwortung von Fragen. Multimodal-Modelle müssen jedoch gleichzeitig Informationen in verschiedenen Formen wie Bilder, Diagramme, Skizzen, Karten, Tabellen, Noten, chemische Strukturen usw. verarbeiten. Sie müssen nicht nur die Fragestellung verstehen, sondern auch wirklich den Inhalt der Bilder verstehen und die visuellen Informationen, Textinformationen und Fachwissen zusammenführen, um Schlussfolgerungen zu ziehen.

Der MMMU-Benchmark enthält 11.500 Multimodal-Fragen, die aus Universitätsklausuren, Tests und Lehrbüchern stammen und sechs Bereiche wie Kunst und Design, Wirtschaft, Wissenschaft, Gesundheit und Medizin, Geistes- und Sozialwissenschaften, Technologie und Ingenieurwesen abdecken. Diese Bereiche sind weiter in 30 Fächer und 183 Teilbereiche unterteilt.

Diese Fragen fragen nicht einfach, was auf einem Bild zu sehen ist. Sie verlangen von einem Modell, dass es wie ein Student bei einem Fachtest die visuellen Informationen mit Fachwissen kombiniert.

Bei der Veröffentlichung von MMMU haben das Forschungsteam 14 Open-Source-Multimodal-Modelle sowie repräsentative Closed-Source-Modelle wie GPT-4V und Gemini Ultra getestet. Selbst die damals stärksten Closed-Source-Modelle, GPT-4V und Gemini Ultra, erreichten nur eine Genauigkeit von 56% bzw. 59%.

Diese Zahlen zeigen, dass Multimodal-Modelle zwar scheinbar schnell Fortschritte machen, aber bei Fragen, die echte Fachverständnis und Schlussfolgerungsfähigkeiten erfordern, noch viel Verbesserungspotential haben.

Später hat das Team von Chen Wenhu MMMU-Pro eingeführt, um die Möglichkeit zu verringern, dass ein Modell die visuellen Informationen umgeht. Es filtert Fragen heraus, die auch nur mit einem Textmodell beantwortet werden können, erweitert die Antwortoptionen und führt eine vision-only-Einstellung ein, bei der die Fragen in ein Bild eingebettet werden und das Modell sowohl die visuelle Information lesen als auch den Text verstehen muss.

Einfach gesagt, es soll verhindert werden, dass ein Modell „nur anhand des Textes die Antwort rät“.

Diese Art von Arbeit klingt vielleicht etwas mühsam, aber sie ist sehr wichtig. Denn Multimodal-Modelle müssen in Zukunft in Bereiche wie Medizin, Bildung, Forschung, Design, Ingenieurwesen usw. eingesetzt werden. Es reicht nicht aus, wenn sie nur Bilder beschreiben können. Sie müssen in der Lage sein, zu beurteilen, zu schließen, zu erklären und auch den wirklich nützlichen Teil in komplexen visuellen Informationen zu finden.

03 Die Person hinter den „Prüfungen“

Chen Wenhus Arbeit an MMLU-Pro und MMMU stammt aus seiner langjährigen Forschungsrichtung.

Sein Forschungsinteresse liegt in der Verständnis von komplexen Informationen, Wissensfragen und Schlussfolgerungen.

Er hat seinen Bachelor an der Huazhong-Universität für Wissenschaft und Technologie abgeschlossen, anschließend einen Master an der RWTH Aachen in Deutschland studiert und schließlich einen Doktor in Informatik an der University of California, Santa Barbara erhalten. Während seiner Doktorarbeit hat er bereits an Forschungsrichtungen wie komplexen Fragen, Tabellen-Schlussfolgerungen, Wissensbeweis-Lokalisierung usw. gearbeitet.

All diese Aufgaben haben einen gemeinsamen Punkt: Die Antworten liegen oft nicht in einem einzigen Text.

Sie können in einer Tabelle versteckt sein, oder es kann erforderlich sein, einen Text und ein Bild zu kombinieren. Manchmal muss ein Modell auch zuerst Informationen suchen, dann zusammenfassen, berechnen und schlussfolgern. Ein Modell darf nicht nur in der Lage sein, vorhandenes Wissen zu wiederholen.

Die Projekte, an denen Chen Wenhu beteiligt war, wie HybridQA, TabFact, ProgramofThoughts, MAmmoTH usw., stehen alle in Verbindung mit dieser Richtung.

Dies erklärt auch, warum er für die Lücken in der Modellbewertung empfindlich ist.

Eine gute Benchmark-Bewertung ist nicht einfach darum, die Fragen immer schwieriger zu machen, sondern es geht darum, vorherzusagen, wo ein Modell am wahrscheinlichsten „die richtige Antwort rät“ oder „scheinbar kann“.

Ein Modell kann die Fragendatenbank auswendig lernen, die Antwort anhand der Optionen raten oder die visuellen Informationen mit Text umgehen … Eine gute Bewertung muss diese Lücken schließen.

Nach seiner Promotion ist Chen Wenhu in das Google Research Institute eingetreten und hat anschließend von 2021 bis 2025 an der Entwicklung und Bewertung des Multimodal-Modells Gemini von Google DeepMind mitgewirkt. Diese Erfahrung war ebenfalls sehr wichtig. Durch die langjährige Arbeit an der Entwicklung von führenden Modellen weiß er besser, wie die Fähigkeiten von Modellen wachsen, und er kann leichter die möglichen Abweichungen und Blindflecken in der Bewertung erkennen.

Im Herbst 2022 ist Chen Wenhu als Assistentprofessor an die Fakultät für Informatik der Universität Waterloo gekommen. Im gleichen Jahr wurde er in die Canada CIFAR AI Chair aufgenommen. Danach hat er das „TIGERLab“ (die Tiger-Gruppe) gegründet und weiterhin an Grundmodellen, Multimodal-Fähigkeiten und Benchmark-Bewertungen geforscht.

Die Tiger-Gruppe macht nicht nur Benchmark-Bewertungen, sondern auch Forschung an Modellen und Systemen.

Im Bereich der Videos versucht UniVideo, das Verständnis, die Erzeugung und die Bearbeitung von Videos in einem Rahmen zu integrieren, damit ein Modell nicht nur ein Bild erzeugen kann, sondern auch den Inhalt verstehen, auf Befehle reagieren und Änderungen vornehmen kann. Vamba konzentriert sich auf das Verständnis von langen Videos und löst die Probleme mit dem Grafikspeicher, der Berechnung und der Trainingsleistung bei Videos in Stundendauer. MoCha, eine Zusammenarbeit mit dem generativen KI-Team von Meta, konzentriert sich auf die Erzeugung von sprechenden virtuellen Charakteren und erzeugt hochwertige Personenvideos anhand von Sprache und Textbeschreibungen.

Ein Prüfungssteller, der nie selbst Prüfungen macht, kann keine guten Prüfungen erstellen. Wenn man selbst an der Entwicklung von Modellen beteiligt ist, ist man auch besser in der Lage, Bewertungen zu machen.

Weil eine wirklich gute Bewertung oft auf dem Verständnis der Grenzen der Modellfähigkeiten basiert. Nur wenn man weiß, wie ein Modell entwickelt wird und welche Probleme es in realen Aufgabenstellungen hat, kann man leichter Fragen entwerfen, die die Unterschiede zwischen den Modellen aufzeigen und die Probleme aufdecken.

Heute ist Chen Wenhu in das Super-

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Hinter dem Zeugnis der künstlichen Intelligenz verbirgt sich ein chinesischer „Aufgabensteller“.

01

Nachdem die alten Prüfungen nicht mehr funktionieren

02

Nützliche Benchmark-Bewertungen

03

Die Person hinter den „Prüfungen“