Das Team der Nanjing-Universität erlebt Mythologie hoher Punktzahlen von Large Language Models: Menschen 90 Punkte, stärkstes Modell nur 49 Punkte

Die Bewertungsnoten der bestehenden großen Sprachmodelle neigen zunehmend zur Sättigung, aber die Differenz zu den realen Erfahrungen ist erheblich.

【Einführung】Die Bewertungsnoten der bestehenden großen Modelle neigen zunehmend zur Sättigung, aber es besteht ein deutlicher Unterschied zur realen Erfahrung. Das Team von Fu Chaoyou der Nanjing-Universität hat unter der Einladung des Bewertungsteams von Google Gemini einen neuen Benchmark für die Videoverständnis Video-MME-v2 entwickelt. Mit einem innovativen hierarchischen Fähigkeitssystem und einer gruppennichtlinearen Bewertungsmethode sowie über 3300 Arbeitsstunden an hochwertigen Annotationen wird die enorme Kluft zwischen Modellen und Menschen (49 vs. 90), die Überbewertung des traditionellen Acc-Indikators sowie das Phänomen, dass "Denken" nicht immer vorteilhaft ist, aufgezeigt.

Vor mehr als einem Jahr hat das Video-MME-Team unter der Leitung von Fu Chaoyou seine erste Version des Benchmarks veröffentlicht, der von Gemini, GPT und anderen weitgehend für die Videoverständnisbewertung verwendet wird.

Nach der Statistik von Paper Digest hat Video-MME den ersten Platz in Bezug auf den Einfluss unter allen akzeptierten Artikeln der CVPR 2025 eingenommen (über 1100 Zitationen).

In den letzten Jahren hat das Team die Bewertung von multimodalen großen Modellen weiter systematisch zusammengefasst und die Übersichtsarbeit MME-Survey veröffentlicht, in der die bestehenden Benchmarks von der Fähigkeitsabdeckung, der Bewertungsmethode bis hin zur Indikatorentwicklung umfassend analysiert wurden.

Deshalb war das Team früher und deutlicher davon überzeugt, dass das bestehende Bewertungsparadigma allmählich „unwahr“ wird. Multimodale große Modelle haben bei der Videoverständnis rasant Fortschritte gemacht, und die Noten auf verschiedenen Benchmarks neigen zur Sättigung, aber die reale Erfahrung ist immer noch unzureichend. Unter dieser Hintergrund wurde Video-MME-v2 offiziell veröffentlicht.

Paper: https://arxiv.org/pdf/2604.05015

Homepage: https://video-mme-v2.netlify.app/

MME-Survey: https://arxiv.org/pdf/2411.15296

Video-MME-v2 ist ein Bewertungsbenchmark für die nächste Generation der Videoverständnisfähigkeit. Nach fast einem Jahr Vorbereitung wurde er von 12 Annotatoren und 50 unabhängigen Prüfern gemeinsam erstellt, wobei über 3300 Arbeitsstunden an Annotationszeit investiert wurden.

Im Unterschied zu traditionellen Benchmarks verfügt Video-MME-v2 über ein sorgfältig entworfenes dreistufiges Fähigkeitssystem, das schrittweise aufeinander aufbaut, sowie eine gruppennichtlineare Bewertungsmethode.

Die Bewertungsergebnisse zeigen, dass die nichtlineare Note von menschlichen Experten 90,7 (traditionelles Acc von 94,9) beträgt, während die bestehende stärkste kommerzielle Version von Gemini-3-Pro nur 49,4 erreicht. Die beste Leistung des Open-Source-Modells Qwen liegt bei 39,1.

Was misst Video-MME-v2?

Das erste Kernkonzept von Video-MME-v2 besteht darin, die Videoverständnis in ein dreistufiges Fähigkeitssystem zu zerlegen, das schrittweise aufeinander aufbaut.

Erste Stufe: Informationssuche und -aggregation. Dies ist die grundlegendste Stufe der Videoverständnis, die darauf abzielt, ob das Modell Schlüsselfakten aus interframes- und multimodalen Informationen genau identifizieren und extrahieren kann.

Zweite Stufe: Zeitliche Verständnis. Basierend auf der ersten Stufe prüft die zweite Stufe, ob das Modell die zeitliche Dimension wirklich versteht. Das Modell muss nicht nur die statischen Bilder in verschiedenen Frames verstehen, sondern auch die zeitliche Reihenfolge von Aktionen, die Änderungen des Zustands und die Gründe für Ereignisse verstehen.

Dritte Stufe: Komplexes Schließen. Basierend auf der zweiten Stufe nähert sich die dritte Stufe am ehesten realen Weltaufgaben und erfordert von dem Modell, dass es in komplexeren und offeneren Szenarien schließen kann. Dies ist auch die Stufe, die am nächsten an einem "menschlichen Verständnis" ist: Es muss nicht nur verstehen, sondern auch schließen, erklären und synthetisieren können. Abbildung 1 zeigt die Struktur dieser drei Fähigkeitsstufen intuitiv.

Abbildung 1 Die Fähigkeitsstufenverteilung von Video-MME-v2 und die Rangliste der Fähigkeiten einiger Modelle

Video-MME-v2 ist nicht nur "mehr Aufgaben stellen", sondern eine neue Bewertungsmethode

Die zweite Schlüsselinnovation von Video-MME-v2 beantwortet die Frage „Wie misst man?“.

Anstatt die traditionelle Methode der "unabhängigen Bewertung jeder Aufgabe" fortzusetzen, hat diese Arbeit die Gruppenbewertung eingeführt. Das heißt, anstatt nur zu prüfen, ob das Modell eine bestimmte Aufgabe richtig beantwortet hat, wird bewertet, ob es in einer Gruppe verwandter Aufgaben Konstanz und Kohärenz zeigt.

Fähigkeitskonstanzgruppe: Prüfen, ob das Modell "wirklich kann"

Es geht darum, ob das Modell bei derselben Fähigkeit in verschiedenen Fragestellungen, verschiedenen Granularitäten und verschiedenen Aspekten stabil bleibt.

Nehmen wir ein einfaches Beispiel: Wenn ein Modell wirklich über die Fähigkeit zur räumlichen Verständnis verfügt, sollte es nicht nur die Frage "Wo befindet sich das Objekt?" beantworten können, sondern auch die Frage "Wie ändert sich seine relative Position zu einem anderen Objekt?"

Schlussfolgungskohärenzgruppe: Prüfen, ob das Modell "wirklich schließt"

Es geht darum, ob das Modell, wenn eine komplexe Aufgabe mehrere Schritte des Schließens erfordert, entlang einer logischen Kette Schritt für Schritt zum Schluss kommen kann.

Beispielsweise muss ein Modell in einem Video mit komplexer Handlung möglicherweise zuerst einen wichtigen visuellen Hinweis entdecken, dann anomale Details erkennen, dann die Absicht der Personen ableiten und schließlich eine Schlussfolgerung ziehen.

Wenn ein Schritt fehlschlägt, kann die richtige Antwort am Ende, auch wenn sie "zufällig richtig gewählt" wurde, nicht als wirklich vertrauenswürdige Schlussfolgerung gelten.

Um die Gruppenbewertung zu unterstützen, hat das Video-MME-Team zusätzlich einen nichtlinearen Bewertungsmechanismus eingeführt. Dies ist auch eines der repräsentativen Merkmale von Video-MME-v2.

Bei der Fähigkeitskonstanzgruppe werden die vier verwandten Fragen nicht einfach gemittelt, sondern es wird eine Motivationsbewertung angewendet (je mehr Fragen in einer Gruppe richtig beantwortet werden, desto höher ist die Belohnung). Dies bedeutet, dass es nicht ausreicht, einige Fragen zufällig richtig zu beantworten, um eine hohe Note zu erhalten. Erst wenn das Modell in einer Gruppe von Fragen eine stabile Leistung bringt, steigt die Note tatsächlich.

Bei der Schlussfolgungskohärenzgruppe wird zusätzlich ein „Anstoß-Stopp“-Mechanismus angewendet. Das heißt, wenn ein Schritt falsch beantwortet wird, werden die folgenden Antworten, auch wenn sie richtig sind, nicht mehr bewertet.

Warum ist es schwieriger und vertrauenswürdiger?

Die Überzeugungskraft eines Benchmarks hängt nicht nur von der "kreativen Gestaltung", sondern auch von der "Stabilität der Daten" ab.

Das Team hat die Datenquelle, den Annotationsprozess, die Qualitätskontrollstandards und andere Aspekte von Video-MME-v2 streng kontrolliert und einen hohen Personalkostenaufwand betrieben.

Der Datensatz umfasst schließlich 800 Videos und 3200 Fragen. Insgesamt 12 Annotatoren und 50 unabhängige Prüfer haben daran teilgenommen und nach 5 Runden der Kreuzprüfung und des geschlossenen Verbesserungsprozesses wurden insgesamt über 3300 Arbeitsstunden investiert. Weitere Details finden Sie auf der Homepage und im technischen Bericht.

Wie sind die Bewertungsergebnisse?

Im Hauptranking erreicht die gruppennichtlineare Note von Menschen 90,7, und die durchschnittliche Genauigkeit beträgt 94,9. Das derzeit beste kommerzielle Modell Gemini-3-Pro erreicht eine gruppennichtlineare Note von 49,4.

Unter den Open-Source-Modellen erreicht Qwen3.5-397B-A17B-Think (512 frames) eine Gruppennote von 39,1.

Dies bedeutet, dass selbst das derzeit stärkste Videomodell im strengereren und auf Konstanz und Kohärenz stärker fokussierten Bewertungsrahmen einen großen Abstand zu Menschen aufweist.

Das Paper weist auch besonders darauf hin, dass das Modell von Level 1 bis Level 3 eine deutliche Leistungseinbuße zeigt. Dies zeigt, dass die Schwäche bei komplexen Schlussfolgerungen auf höherer Ebene nicht nur auf eine „nicht stark genug“ Schlussfolgerungsmodul zurückzuführen ist, sondern dass es oft bereits Probleme bei der Informationsaggregation und der zeitlichen Modellierung gegeben hat, die schließlich zu einer Verschlechterung des komplexen Verständnisses führen.

Abbildung 2 Die Top 10 der aktuellen Bewertung (siehe die Homepage für die vollständige Liste)

Die Vorteile der nichtlinearen Bewertung: Von „eine Aufgabe richtig beantworten“ zu „eine Gruppe von Aufgaben stabil verstehen“

In der traditionellen Bewertung ist die durchschnittliche Genauigkeit (Avg Acc) der am häufigsten verwendete Indikator, aber im Wesentlichen ist es das Ergebnis der unabhängigen statistischen Auswertung jeder Aufgabe, die leicht von "zufälligen Treffern" beeinflusst wird.

Im Vergleich dazu betont die gruppennichtlineare Bewertung (Non-Lin Score), die vom Team vorgeschlagen wurde, durch die Modellierung der strukturellen Beziehungen zwischen den Aufgaben stärker die Gesamtleistung des Modells in derselben Fähigkeitsdimension und kann so realistischer abbilden, ob das Modell "das Video stabil versteht".

Des Weiteren zeigt die nichtlineare Bewertung ein wichtiges Phänomen der Modellfähigkeiten auf: Es besteht eine deutliche Fähigkeitseinbuße zwischen "richtige Antwort auf eine einzelne Aufgabe" und "stabile richtige Antworten innerhalb einer Gruppe".

Dafür hat das Team einen erklärbaren Indikator eingeführt - das Verhältnis von Non-Lin Score/Avg Acc, um das Ausmaß dieser Einbuße zu messen.

Die experimentellen Ergebnisse zeigen, dass das Verhältnis des derzeit stärksten Modells Gemini-3-Pro etwa 75% beträgt, das von Doubao-Seed-2.0-Pro etwa 72%. Bei einigen kleinen und mittleren Modellen (wie LLaVA-Video-7B) sinkt es sogar auf etwa 40%.

Je niedriger das Verhältnis ist, desto wahrscheinlicher tritt das Phänomen auf, dass das Modell nur einige Fragen innerhalb einer Gruppe richtig beantworten kann, und je schwächer ist seine Stabilität und Robustheit. Dies zeigt die Vorteile der nichtlinearen Bewertung bei der realistischen Abbildung der Fähigkeitsniveaus und der Aufdeckung der Robustheit von Modellen.

Abbildung 3 Die Verhältnisergebnisse von Non-Lin Sore/Avg Acc verschiedener Modelle

Eine bemerkenswerte Entdeckung: Thinking ist nicht immer effektiv

Im Kontext der heutigen großen Modelle ist "Thinking" fast zur Standardoption für die Verbesserung geworden. Eine sehr interessante und wichtige Entdeckung von Video-MME-v2 ist jedoch, dass der Nutzen von Thinking nicht bedingungslos besteht, sondern stark von Text-Hinweisen abhängt.

Die experimentellen Ergebnisse des Papers zeigen, dass das Modell nach dem Aktivieren von Thinking in der Einstellung mit Untertiteln in der Regel deutlicher verbessert wird als in der "reinen visuellen" Einstellung.

Beispielsweise bringt Qwen3.5-122B-A10B-Think (64 frames) in der Einstellung ohne Untertitel und mit Untertiteln eine Verbesserung von +3,8/+5,8 respectively. Dies zeigt, dass die explizite Textsemantik immer noch ein wichtiger "Ankerpunkt" für viele Modelle bei der Durchführung von mehrstufigen Schlussfolgerungen ist.

Aber andererseits kann Thinking auch zu einer Verschlechterung führen. Qwen3-VL-8B zeigt in der Einstellung ohne Untertitel eine Abnahme von -0,6, und KimiVL-16B weist insgesamt eine Leistungseinbuße von -3,3/-3,3 auf. In Level 3, das auf komplexe Schlussfolgerungen stärker fokussiert ist, beträgt die Verschlechterung sogar -4,0/-3,9.

Dies zeigt, dass die "Schlussfolgerungsverbesserung" einiger aktueller Modelle im Wesentlichen immer noch besser darin ist, Sprachhinweise zu nutzen, anstatt stabil Beweise für die Schlussfolgerung aus visuellen und auditiven Informationen zu extrahieren. Wenn die Textanker

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das Team der Nanjing-Universität hat die Mythologie der hohen Punktzahlen von Large Language Models direkt erlebt: Menschen erreichen 90 Punkte, während das stärkste Modell nur 49 Punkte erzielt.