MLLM hat kollektiv gescheitert und fehlt es an babyähnlichen Grundkenntnissen. Die Branche hat ihren ersten Kernkognitionstest veröffentlicht, und LeCun hat es geteilt und geliked.
Derzeit liegen aktuelle Großmodelle in 12 Kernkognitionsebenen wie der grundlegenden Wahrnehmung und physikalischen Allgemeinwissen durchschnittlich 10 - 30 % hinter Menschen hinter. Je größer das Modell ist, desto häufiger versucht es, durch das "auswendig Lernen von Antworten" herumzukommen. Nur sehr wenige Modelle beherrschen wirklich Kernwissen. Das Team hat das erste systematische Bewertungsframework und die dazugehörige Fragebank öffentlich gemacht und fordert auf, die Grundlage des "Allgemeinwissens, das selbst ein dreijähriges Kind kennt" zu festigen, bevor man über höhere Intelligenz spricht.
Kürzlich zeigten die Ergebnisse einer ICML 2025 - Studie, die von Yann LeCun geteilt wurde, dass in der großen Prüfung mit 1.503 Fragen des CoreCognition - Benchmarks 230 gängige Modelle ihre "Allgemeinwissenslücken" bezüglich des Weltmodells offenlegten.
Selbst die größten multimodalen Sprachmodelle fehlen die "Kernwissensgrundlage", die schon menschliche Babys haben. Selbst wenn die höhere logische Schlussfolgerung sehr anspruchsvoll ist, kann es nicht verhindern, dass die Grundlage einstürzt.
Aus der folgenden beeindruckenden Vergleichstabelle können wir sehen, dass die Modelle in den 12 "Kindergarten" - Tests zusammengebrochen sind.
Object Permanence: Menschen 88,1 %, das stärkste Modell InternVL3 - 78B nur 74,1 %, die Differenz beträgt 14 %;
Perspective Taking: Menschen 91,99 %, das stärkste Modell QVQ - 72B - Preview nur 83,25 %, die Differenz beträgt 9 %;
Intuitive Physics: Menschen 91,52 %, das stärkste Modell GPT - o1 nur 75,45 %, die Differenz beträgt über 16 %. Die meisten Modelle liegen 10 - 30 % hinter.
Forscher von Universitäten wie der Universität von Kalifornien, San Diego, der Johns Hopkins Universität, der Emory Universität, der Universität von North Carolina, Chapel Hill, der Stanford Universität und der Carnegie Mellon Universität haben gemeinsam mit Wissenschaftlern aus dem Bereich der Kognitionswissenschaft ein Jahr lang daran gearbeitet, den ersten Kernkognition - Benchmark CoreCognition zu konstruieren und zu öffnen.
Darin befinden sich 1.503 ausgewählte Fragen, die 12 Kernfähigkeiten von der sensorischen - motorischen bis zur formalen Operationalisierung abdecken. Für jedes Konzept gibt es über 95 Beispiele, die alle Entwicklungsstadien der menschlichen Kognition umfassen.
Link zur Studie: https://arxiv.org/pdf/2410.10855 Projektwebsite: https://williamium3000.github.io/core - knowledge/ Offener Datensatz: https://huggingface.co/datasets/williamium/CoreCognition
Überdies hat das Team drei hohe Standards eingehalten:
Diskriminierbarkeit (Modelle, die das Ziel - Kernwissen fehlen, werden zwangsläufig die falsche Antwort wählen)
Minimale Verwirrung (Verzicht auf die Abhängigkeit von irrelevanten Fähigkeiten wie der Objekterkennung)
Minimale Textschnellwege (Die Antwort kann nicht nur durch Textableitung gewonnen werden)
Zwölf Annotatoren haben zusammen den Datensatz erstellt. Der Datensatz wurde zweimal kreuzvalidiert und von 20 Personen auf Amazon Mechanical Turk manuell geprüft.
230 Modelle wurden in der großen Prüfung getestet, darunter gängige kommerzielle Modelle wie GPT, Claude, Qwen und offene Modelle. Es wurden 11 Hinweiss Strategien verwendet, um die echten Fähigkeiten der Modelle umfassend zu testen.
Es ist zu erfahren, dass das Team nicht nur eine vollständige Bewertungsinfrastruktur mit ausgeglichenen Antwortpositionen und gemischten Antwortanalysen aufgebaut hat, sondern auch plant, ein MLLM - Einheitstestframework für diese 230 Modelle zu öffnen. Der Hervorhebungspunkt ist, dass es sehr einfach zu bedienen ist.
Mit nur wenigen Codezeilen können alle Experimentergebnisse in diesem Artikel und anderen beliebten Daten wiederholt werden!
"Konzept - Hacker" - Doppel - Blindbox, die die Maske des Schnellweg - Lernens durchbricht
Noch beeindruckender ist die von dem Team entwickelte Concept Hacking - Methode, die speziell dafür dient, zu erkennen, ob ein Modell "wirklich versteht" oder "scheinbar versteht"
Der Kerngedanke: Für jede Frage wird eine "Zwillingsfrage" erstellt, bei der alle irrelevanten Details identisch bleiben, aber das Kernkonzept umgekehrt wird.
Beispielsweise im Perspective - Taking - Test
Originalfrage: Nach einer 90 - Grad - Drehung im Uhrzeigersinn sieht das Bild eher wie eine Ente oder wie ein Kaninchen aus? → Testet das echte Verständnis der Perspektivumstellung
Zwillingsfrage: Die gleiche Drehoperation, aber die richtige Antwort ist umgekehrt. → Testet, ob das Modell nur eine feste Vorlage anwendet.
Das Verhalten von Menschen: Beide Fragen werden richtig beantwortet (echtes Verständnis der Formänderung nach der räumlichen Drehung)
Das Verhalten des Modells: Die Originalfrage wird richtig beantwortet, die Zwillingsfrage wird falsch beantwortet (enthüllt die Abhängigkeit von stereotypen Vorstellungen über die "Ente - Kaninchen - Illusion")
Zerlegung der "Hochintelligenz" von MLLM
Erkenntnis 1: Fehlendes Kernwissen - fehlende Grundlage für höhere logische Schlussfolgerung
In den Experimenten haben die Modelle in den niedrigeren Aufgaben insgesamt schlechte Ergebnisse erzielt. Dies zeigt, dass ihre höhere logische Schlussfolgerung und Wahrnehmung nicht auf dem Kernwissen basieren, das schon menschliche Babys haben. Bei verschiedenen Formulierungen und Änderungen des Kontextes können sie keine robuste und stabile Leistung auf hohem Niveau zeigen.
Erkenntnis 2: "Jedes spielt für sich" zwischen den Fähigkeiten
Die Korrelationsmatrix zeigt das "Spaltungsphänomen" zwischen den Modellfähigkeiten: Niedere Fähigkeiten wie Permanenz und Kontinuität haben fast keine Korrelation mit den entsprechenden höheren Fähigkeiten wie Perspektivumstellung und Erhaltung. Die menschliche Kognition entwickelt sich schrittweise, ähnlich wie beim Bauen eines Hauses, wo man zunächst die Basis legt und dann Schritt für Schritt aufbaut.
Derzeit hängt das "Haus der Intelligenz" der Modelle schwebend in der Luft und fehlt an einer Entwicklungskette. Diese Unterbrechung zwischen den Fähigkeiten bedeutet, dass jede Störung der grundlegenden Kognition das gesamte "Intelligenzhaus" in Sekundenschnelle in Mitleidenschaft ziehen kann.
Erkenntnis 3: Kernwissen ist in mehr Aufgaben nützlich
Statistisch gesehen besteht eine starke positive Korrelation zwischen den Ergebnissen von 10 Kernfähigkeiten (außer Perspektivumstellung und Intuitiver Physik) und 26 öffentlichen Benchmarks (außer ChartQA, das eher auf die OCR - Fähigkeit abzielt).
Mit anderen Worten: Je besser das Kernwissen ist, desto stabiler sind die höheren Aufgaben.
Die in den Benchmark - Tests gefundene geringe Korrelation der Perspektivumstellung und Intuitiver Physik, die als Basis für die höhere logische Schlussfolgerung von Menschen dienen, stimmt mit unseren Beobachtungen in der Korrelationsmatrix überein und ist ein Zeichen des Kernwissensdefizits.
Erkenntnis 4: Schlechte Nachricht - eine große Anzahl von Parametern kann derzeit nicht zu Kernwissen führen
Wenn man die 219 Modelle von 1 Milliarde auf 110 Milliarden Parameter skaliert, bleibt die Kurve der niederen Fähigkeiten fast horizontal. Die Fähigkeit der Perspektivumstellung sinkt sogar mit der Skalierung.
Die bisherige Erkenntnis, dass "mehr Rechenleistung Wunder wirkt", funktioniert beim Kernwissen nicht. Ein noch ungelöstes, aber möglicherweise entscheidendes Thema für das Aufbauen eines Weltmodells ist, von "wie man skaliert" zu "wie man Kernwissen durch Skalierung erzeugt" zu wechseln.
Erkenntnis 5: Je größer die Skalierung, desto attraktiver sind die Schnellwege
Die Ergebnisse des Concept - Hacking - Tests zeigen, dass die Leistung der Großmodelle in den Zwillingsfragen im Vergleich zu kleineren Modellen im Allgemeinen nicht verbessert ist und sogar in einigen Fällen schlechter ist. Dies