StartseiteArtikel

Die visuelle Fähigkeit des stärksten Modells ist schlechter als die eines sechsjährigen Kindes.

量子位2026-01-22 21:05
Visuelle Inferenz allein durch Sprache funktioniert nicht.

Wer hätte das gedacht?

Wenn es um visuelle Inferenz geht, ist das Große Modell noch so unausgegoren wie ein dreijähriges Kind.

Neueste Studien von mehreren Forschungsinstituten wie UniPat AI, xbench, Alibaba, Dark Side of the Moon und Step by Step Stars zeigen:

Im BabyVision Benchmark für visuelle Inferenz schneidet das derzeit leistungsstärkste Gemini 3 Pro Preview nur knapp besser ab als ein dreijähriges Kind und hat immer noch einen Abstand von 20% zu einem sechsjährigen Kind.

Im Vergleich zum Level von 94,1 bei Erwachsenen ist es ein himmelweiter Unterschied.

Das Wichtigste ist, dass Gemini 3 Pro Preview bereits die Spitze unter den derzeitigen Modellen ist.

Andere führende Modelle, einschließlich GPT - 5.2, Claude 4.5 Opus und Grok - 4, schneiden insgesamt sogar schlechter ab als dreijährige Kinder.

Diese ernüchternde Erkenntnis ist zweifellos ein Schlag ins Gesicht für die derzeitige embodied AI auf Basis von VLA(M).

Schließlich ist es schwer, von einer KI zu erwarten, die noch nicht einmal das visuelle Niveau eines dreijährigen Kindes erreicht hat, dass sie stabil und sicher Menschen in der realen physischen Welt unterstützen kann.

Genau in diesem Sinne bietet BabyVision noch eine andere Perspektive:

Um das multimodale Intelligence wirklich voranzubringen, müssen zukünftige Modelle ihre visuelle Fähigkeit von der Basis aus neu aufbauen, anstatt weiterhin darauf zu vertrauen, visuelle Probleme in Sprache umzuwandeln, um sie zu umgehen.

Die sprachliche Engstelle in der visuellen Inferenz

In der vollständigen Bewertung verglich die Studie die Leistung von Open - Source - und Closed - Source - Modellen:

Unter den Closed - Source - Modellen führt Gemini 3 - Pro - Preview mit einer Punktzahl von 49,7% an, gefolgt von GPT - 5.2 (34,4%) und Doubao - Seed - 1.8 (30,2%).

Die Leistung der anderen Modelle ist enttäuschend: Qwen3 - VL - Plus 19,2%, Grok - 4 16,2%, Claude - 4.5 - Opus 14,2%.

Unter den Open - Source - Modellen schneidet Qwen3VL - 235B - Thinking am besten ab, mit einer Gesamtscore von 22,2%.

Dabei ist die Thinking - Version von Qwen3VL besser als die Instruct - Version, was zeigt, dass explizite Inferenz die visuelle Unsicherheit verringern kann.

Darüber hinaus kann selbst das größte Open - Source - Modell noch nicht mit den Spitzen - Closed - Source - Systemen mithalten.

Jetzt stellt sich die Frage.

Warum scheitern die Großen Modelle, die in schwierigen Aufgaben wie HLE und IMO Doktorwürdige "Intelligenz" zeigen und sogar mathematische Rätsel lösen können, so oft in scheinbar einfachen "Unterschiede finden" - Aufgaben?

Zunächst die Schlussfolgerung: Die derzeitigen Multimodale Große Modelle wandeln in der Regel visuelle Eingaben zunächst in sprachliche Repräsentationen um, bevor sie die Inferenz durchführen.

Diese Vorgehensweise nutzt die starke Inferenzfähigkeit von Großen Sprachmodellen voll aus, führt aber auch eine grundlegende Einschränkung ein:

Alle visuellen Informationen, die nicht genau in Sprache ausgedrückt werden können, gehen in diesem Prozess verloren.

Beispielsweise kann "ein rotes Auto" in einem Bild leicht in Worte umgeschrieben werden; aber feinere geometrische Informationen wie die genaue Krümmung von Grenzen, die genaue Position von Schnittpunkten und kleine Änderungen in der relativen Raumbeziehung sind schwerlich in Sprache zu fassen.

Genau diese "unbeschreibbaren" visuellen Merkmale bilden die Kernschwierigkeit der BABYVISION - Aufgaben und sind daher der Grund, warum die derzeitigen Spitzen - Multimodalen Modelle so oft scheitern.

Genauer gesagt zerlegt BabyVision die visuelle Inferenz in 4 Kernfähigkeitsdimensionen:

Feingranulare Diskriminierung (Fine - grained Discrimination): Die Erkennung feiner visueller Unterschiede

Visuelle Verfolgung (Visual Tracking): Das Verfolgen von Pfaden, Linien und Bewegungsbahnen

Räumliche Wahrnehmung (Spatial Perception): Das Verständnis von dreidimensionalen Strukturen und Raumbeziehungen

Visuelle Mustererkennung (Visual Pattern Recognition): Die Erkennung logischer und geometrischer Regeln in der Optik

Auf der Grundlage der obigen Fähigkeitsdimensionen hat die Studie vier klassische visuelle Kernherausforderungen identifiziert, denen das aktuelle MLLM gegenübersteht, wie folgt:

Das Fehlen nicht - sprachlicher feiner Details

Zunächst fehlen nicht - sprachliche feine Details, die oft schwerlich in Sprache genau beschrieben werden können.

Beispielsweise behandeln die Multimodalen Großen Modelle (MLLMs) oft völlig unterschiedliche Optionen als ähnlich, wenn es um eine kleine Verschiebung, eine bestimmte Grenzkurve oder nur einen Pixelunterschied geht.

Nehmen wir das am besten abschneidende Gemini 3 Pro Preview als Beispiel. In der folgenden Puzzle - Aufgabe hat es die Option D falsch gewählt.

(Richtige Antwort: B)

Bei der Inferenz von Gemini wandelt es zunächst die Formen in Worterklärungen um, vereinfacht sie dann zu groben Merkmalen (wie Anzahl, Topologie) und vergleicht dann die Kandidatenoptionen im Sprachraum.

Im Vergleich dazu erledigt der Mensch die Aufgabe sofort durch Formanpassung. Das menschliche Gehirn verschiebt und dreht jede Kandidatenoption und prüft, ob die Grenzen übereinstimmen. Der gesamte Prozess wird direkt durch Geometrie angetrieben, ohne die Zwischenschaltung von Worten.

Hier ist also das Wichtigste nicht die Schwierigkeit der Logik, sondern das Fehlen einer hochwertigen Wahrnehmung.

Das Verlust der Manifold - Konsistenz (Manifold Identity)

Darüber hinaus hat die Studie festgestellt, dass die Multimodalen Großen Modelle es schwer haben, die Wahrnehmungskonsistenz über lange Distanzen im Raum zu gewährleisten.

Beispielsweise hat Gemini 3 Pro Preview in der folgenden Verbindungsaufgabe erneut fehlgeschlagen und falsch einen Plastikflaschen mit einem grünen Mülleimer und einen Apfelkern mit einem blauen Mülleimer verbunden.

(Richtige Antwort: Plastikflasche - blau, Papier - gelb, Apfelkern - grün)

Die Studie hat festgestellt, dass Gemini bei der Lösung einer Aufgabe normalerweise eine kontinuierliche Kurve in eine Reihe einfacher Anweisungen wie links, rechts, oben, unten zerlegt.

Das Problem ist jedoch, dass sobald es Schnittpunkte gibt, wird der Pfad unklar und es ist leicht, sich zu verirren.

Da das Modell sich die Kurve nicht "wirklich merkt", kann es nach einem Schnittpunkt versehentlich auf eine andere Linie wechseln.

Diese Fehler fallen einem Menschen fast sofort auf, aber wenn die Informationen in Worte komprimiert werden, sind sie schwer zu bemerken.

Im Vergleich dazu fixiert der Mensch normalerweise direkt eine Linie und verfolgt sie bis zum Ende. Und diese Fähigkeit ist bei menschlichen Kleinkindern bereits sehr natürlich entwickelt.

Räumliche Vorstellungskraft

Die dritte allgemeine Herausforderung, die die Studie identifiziert hat, ist die "räumliche Vorstellungskraft", d. h. die Fähigkeit, aus einem zweidimensionalen Bild eine stabile dreidimensionale interne Repräsentation zu konstruieren und diese unter Beibehaltung der Struktur mental zu transformieren -

beispielsweise die Perspektive zu wechseln, die Projektionskontur zu bestimmen oder das verdeckte Volumen abzuschätzen.

Nehmen wir an, Sie erhalten eine Ansicht und sollen sich vorstellen, wie sie von der Seite aus aussehen würde.

In dieser Aufgabe hat Gemini 3 Pro Preview immer noch die falsche Option C gewählt.

(Richtige Antwort: A)

Bei der Inferenz von Gemini wandelt das Modell zunächst die visuelle Szene in eine sprachliche Zusammenfassung um, beschreibt die Objekte mit Worten und "errät" dann die zweidimensionalen Merkmale auf der Grundlage dieser Wörter.

Aber genau hier liegt das Problem - Wörter können den räumlichen Zustand nicht treu darstellen.

Sobald ein genaues Bild in eine vage Textsummary komprimiert wird, macht das Modell leicht zu erwartende Fehler: Es übersieht verdeckte Bausteine, zählt die Ebenen falsch oder verwendet die falsche dreidimensionale Projektionsbeziehung.

Im Vergleich dazu kann der Mensch direkt im Kopf das Objekt in die angegebene Richtung "drehen" und vergleichen, und der gesamte Prozess erfordert fast keine Sprachbeteiligung.

Visuelle Musterinduktion

Die vierte Herausforderung ist die visuelle Musterinduktion: Das heißt, aus wenigen visuellen Beispielen allgemeine Änderungsregeln abzuleiten und diese auf neue Eingaben anzuwenden.

In der folgenden Aufgabe zum Finden von Mustern hat QWEN3 - VL - PLUS die falsche Option B gewählt.

(Richtige Antwort: C)

Das übliche Vorgehen des Modells bei solchen Aufgaben besteht nicht darin, zu verstehen, "was sich geändert hat", sondern die Attribute zu zählen.

Beispielsweise wie viele Farben, wie viele Formen und ob die Elemente ähnlich sind. Es beschreibt das Quellbild und das Zielbild und versucht dann, die beiden auf Textebene "zusammenzubringen".

Im Vergleich dazu vergleicht der Mensch bei der Bearbeitung solcher Probleme normalerweise direkt die visuellen Beispiele vor und nachher und bildet im Kopf eine einfache "Kausalität - Grafik":

Welche Form enthält welche Form? Was ist der Rahmen und was ist der Inhalt? Wie werden diese Rollen beim Übergang von der Eingabe zur Ausgabe neu verteilt?

Genau diese Fähigkeit, abstrakte Inferenzen über visuelle Beziehungen anzustellen - und nicht nur einfache Erkennung - bildet eine Schwelle, die die derzeitige Modellarchitektur noch schwer zu überwinden ist.

Visuelle Inferenz auf Basis von RLVR und generativem Modellieren

Da also die textbasierte visuelle Inferenz (z. B. VLM) natürliche Einschränkungen hat, gibt es eine Möglichkeit, dies zu verbessern?

Die Studie gibt zwei Richtungen an: Reinforcement Learning mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) und visuelle Inferenz auf Basis von generativen Modellen.

Schauen wir uns zunächst RLVR an