Warum können nicht alle Videomodelle das "Zählen von 1 bis 10" machen?

Künstliche Intelligenz hat die visuelle Grammatik von Filmen gelernt, aber noch nicht die physikalische Grammatik der Welt.

Quelle des Titelbildes: Nano Banana

Autor | Tang Yitao

Redakteur | Jing Yu

Wie leistungsstark Seedance 2.0 ist, haben wir in den letzten Monaten gesehen. Hollywood hat eine gemeinsame Erklärung herausgegeben, und das stärkste Rechtsamt der westlichen Hemisphäre, Disney, hat ByteDance eine Abmahnung geschickt.

Aber wenn man es auffordert, ein Video zu erstellen, in dem ein Mann von 1 bis 10 zählt, wird seine Schwäche sichtbar.

Die generierte „Person“ hat normale Gesichtszüge und ein realistisches Hautgefühl. Der Küchenhintergrund ist so detailliert, dass er wie eine echte Aufnahme aussieht. Wenn er „one“ sagt, scheint alles in Ordnung zu sein. Dann beginnt er jedoch, in einer Art Schleife zu bleiben und wiederholt ständig das Silben „t, t, t“ (keine Zahl von 1 bis 10). Oder er hält drei Finger hoch und sagt selbstbewusst „ten“. Von Anfang bis Ende hält er nicht mehr als drei Finger hoch.

Da Hintergrund und Person so realistisch sind, schafft der Moment, in dem die Finger fehlerhaft sind, eine starke „Fälschungssensation“.

Dieses Problem ist nicht nur für Seedance 2.0 ein Albtraum.

Das Video stammt von einem Nutzer namens fofr auf X (ehemals Twitter), der in seiner Profilbeschreibung als Entwickler bei DeepMind angegeben ist. Letztes Jahr stellte er fest, dass die Aufgabe, von 1 bis 10 zu zählen und die Zahlen mit den Fingern darzustellen, für alle derzeitigen AI-Video-Modelle eine Schwachstelle ist.

Sobald Seedance 2.0 veröffentlicht wurde, hat er diese alte Aufgabe erneut gestellt, und auch hier ist das Modell gescheitert.

Unter diesem Tweet hat sich eine spontane „AI-Zähl-Challenge“ entwickelt. Nutzer haben diese Aufgabe an fast alle gängigen Modelle wie Sora, Veo und Kling gestellt, und alle haben gescheitert. Keines konnte korrekt von 1 bis 10 zählen.

Wenn die stärksten Produkte einer Branche von einer Aufgabe auf Kindergartenniveau gemeinsam blockiert werden, deutet dies auf ein Problem hin: Warum können diese Modelle unsere Augen täuschen, aber keine Alltagskenntnisse verstehen?

Was verstehen sie überhaupt, und was fehlt ihnen?

01 Statistische Vorhersage vs. Weltverständnis: Die Grenzen der Fähigkeiten von AI-Videos

Das Problem, nicht bis 10 zu zählen, ist kein isolierter Fehler. Es zeigt eine ganze Reihe von Fähigkeitslücken der derzeitigen KI auf.

Der Grund ist einfach: Alle Video-Modelle lernen im Wesentlichen die gleichen statistischen Muster aus einer riesigen Menge an Videodaten und versuchen dann, bei der Generierung jedes Einzelbildes vorherzusagen, welche Pixelanordnung am wahrscheinlichsten ist. Dies entspricht der Logik von Sprachmodellen, die versuchen, das nächste Wort vorherzusagen (Next-Token Prediction).

Deshalb können sie Gesichtsporen, Küchenbeleuchtung und Kleiderfalten so realistisch rendern, weil es in den Trainingsdaten genügend Beispiele gibt. Sobald die Aufgabe jedoch über die Trainingsdaten hinausgeht und in den Bereich des „Alltagswissens“ kommt, treten Probleme auf.

Diese Probleme lassen sich grob in drei Kategorien einteilen.

Erstens gibt es feine Handbewegungen, die als bekannteste „KI-Entlarver“ gelten. Vom „Sechsfingermann“ in der Bildgenerierung bis zum „Gummifinger“ in der Videogenerierung ist die Hand immer ein Albtraum für KI-Systeme.

Im Jahr 2022, als Midjourney und DALL-E populär wurden, war das Problem der „zusätzlichen Finger“ in textgenerierten Bildern am offensichtlichsten. | Quelle: Medium

Ehrlich gesagt hat die KI bei der Darstellung von Händen große Fortschritte gemacht. In alltäglichen Szenarien sind Sechsfingermänner und Gummifinger immer seltener geworden.

Aber fofrs Test hat alle Modelle gemeinsam scheitern lassen, weil es nicht nur ein Problem der visuellen Darstellung ist, sondern auch eine logische Schlussfolgerung erfordert. Es erfordert, dass in 10 Sekunden 10 verschiedene Gesten nacheinander gezeigt werden, wobei die Anzahl der Finger bei jeder Geste streng zunimmt und die gesprochenen Zahlen übereinstimmen müssen.

Die menschliche Hand besteht aus 27 Knochen, 34 Muskeln und über 100 Bändern. Ein einzelne Hand hat 18 Freiheitsgrade. Selbst bei Verwendung von hochauflösenden Diffusionsmodellen ist es schwierig, diese Präzision zu erreichen, wenn keine klaren dreidimensionalen Vorwissen vorhanden sind.

Schematische Darstellung der Bewegungsmöglichkeiten des menschlichen Körpers | Quelle: ScienceDirect

Darüber hinaus erscheinen Hände in Trainingsdaten oft am Rand des Bildes, werden von Objekten verdeckt oder sind aufgrund von Bewegung unscharf. Die Modelle können daher viel weniger hochwertige Beispiele für Hände lernen als für Gesichter.

Die zweite Kategorie von Fähigkeitslücken der KI betrifft physikalische Gesetze. Wie Flüssigkeiten fließen, wie Objekte kollidieren und wie Stoffe flattern … Dies sind Dinge, die Menschen intuitiv verstehen können, aber KI-Videos geben oft Antworten, die den physikalischen Gesetzen widersprechen. OpenAI hat in seinem offiziellen technischen Bericht bei der Veröffentlichung von Sora explizit zugegeben: Sora kann viele grundlegende physikalische Interaktionen, wie das Brechen von Glas, nicht genau simulieren und kann auch nicht die Zustandsänderungen einiger Objekte richtig wiedergeben.

Die dritte Kategorie ist die Zeitliche Konsistenz von Logik. Ein Video ist nicht nur eine Sammlung von unabhängigen Bildern, sondern eine zeitliche Kette mit kausalen Beziehungen: Das Bild in Sekunde 3 muss auf dem Bild in Sekunde 2 basieren. Die derzeitigen Diffusionsmodelle behandeln die Zeit jedoch als eine mathematische Dimension. Beim Generieren des N-ten Bildes gibt es keine interne Mechanismen, um sich zu „merken“, wie viele Finger zuvor gezeigt wurden und wie viele Finger im nächsten Schritt hinzugefügt werden müssen. Mit der Zeit stimmen die Bilder nicht mehr überein.

Um es zu veranschaulichen, ist das derzeitige AI-Video-Modell wie ein Maler, der nie eine echte Hand gesehen hat, aber nach dem Betrachten von einer Million Fotos von Händen versucht, eine Hand zu malen. In den meisten Fällen sieht es ziemlich gut aus, aber er weiß nicht, dass eine Hand nur fünf Finger hat, dass drei Finger die Zahl 3 repräsentieren und dass es von 3 auf 4 bedeutet, einen weiteren Finger hochzuhalten.

02 Ein anderer Weg: Weltmodelle

Da das Problem auf dem „Fehlen des Verständnisses der physischen Welt“ beruht, gibt es Menschen, die versuchen, dieses Problem von Grund auf zu lösen?

Tatsächlich wird dies zu einem der am meisten beobachteten neuen Richtungen in der KI-Branche. Ein Ansatz, der immer mehr Akzeptanz gewinnt, ist, dass Modelle nicht nur lernen sollten, „wie die Welt aussieht“, sondern auch, „wie die Welt funktioniert“.

Dieser Ansatz wird allgemein als Weltmodell (world model) bezeichnet. Der Kerngedanke des Weltmodells ist, dass die KI ein strukturelles Verständnis der dreidimensionalen physischen Welt aufbauen soll, einschließlich der räumlichen geometrischen Beziehungen, der physikalischen Eigenschaften von Objekten und der dynamischen Gesetze der Bewegung.

Dies unterscheidet sich grundlegend von der Vorgehensweise der derzeitigen Videogenerierungsmodelle. Die derzeitigen Modelle prognostizieren die statistische Wahrscheinlichkeit der Pixelanordnung auf einer zweidimensionalen Ebene, während Weltmodelle versuchen, die KI auf der Grundlage des Verständnisses der physikalischen Gesetze zu generieren.

Die bekannteste Gründerin in dieser Richtung ist Fei-Fei Li. Die Schöpferin von ImageNet gründete im Jahr 2024 World Labs mit dem Ziel, die KI mit „räumlicher Intelligenz“ auszustatten. In einem ausführlichen Artikel im vergangenen Jahr schrieb sie:

„Sprache ist ein Produkt der menschlichen Kognition, aber die Welt folgt komplexeren Regeln – die Schwerkraft steuert die Bewegung, die Atomstruktur bestimmt, wie Licht Farben erzeugt, und unzählige physikalische Gesetze beschränken jedes Zusammenspiel. Um die KI in die Lage zu versetzen, all dies wirklich zu verstehen, wird eine völlig neue Architektur benötigt, die weit über die Sprachmodelle hinausgeht.“

Im Februar dieses Jahres hat World Labs eine Finanzierung in Höhe von einer Milliarde US-Dollar abgeschlossen. Sein erstes Produkt, Marble, ist bereits online und kann aus Bildern oder Texten dauerhafte 3D-Umgebungen generieren.

Marble kann aus einem Bild oder einem Text eine 3D-Welt generieren, in der man sich frei bewegen und dauerhaft bearbeiten kann. | Quelle: World Labs

Fei-Fei Li ist nicht die einzige, die in dieses Feld eintritt. Yann LeCun gründete nach seinem Ausscheiden aus Meta AMI Labs, das ebenfalls auf Weltmodelle konzentriert ist. Die Genie-Serie von Google DeepMind erforscht die Generierung und Simulation von 3D-Umgebungen. Nvidia hat Cosmos vorgestellt, das als „Weltgrundmodell“ positioniert ist und versucht, Videogenerierung, physikalische Wahrnehmungssimulation und Robotersysteme in einem Rahmen zu vereinheitlichen.

Wenn einige der besten Forscher und reichsten Unternehmen in diesem Bereich in die gleiche Richtung gehen, sagt dies schon etwas aus. Die Grenzen des reinen datengesteuerten Ansatzes werden von immer mehr Menschen erkannt, aber die Lösung ist noch in der Erforschung.

Als Seedance 2.0 auf den Markt kam, hat es eine Welle der Panik ausgelöst. Rhett Reese, der Drehbuchautor von „Deadpool“, schrieb sogar nach der Demo: „Ich will es nicht zugeben, aber wir sind vielleicht verloren.“

Diese Reaktion ist verständlich. Seedance 2.0 ist wirklich stark, aber das Problem, nicht bis 10 zu zählen, bietet eine nützliche Perspektive: Diese Modelle haben die visuelle Grammatik von Filmen gelernt, aber noch nicht die physikalische Grammatik der Welt. Ihr Fortschritt besteht eher darin, „realistischer auszusehen“ als darin, „die Realität besser zu verstehen“.

Im Wesentlichen ist ein System, das nicht weiß, dass eine Hand nur fünf Finger hat, noch weit davon entfernt, menschliche Autoren wirklich zu ersetzen. Es fehlt noch ein paradigmatischer Sprung.

Die Menschen können sich zumindest beruhigen, bis die KI lernt, bis 10 zu zählen.

Dieser Artikel stammt aus dem WeChat-Account „GeekPark“, Autor: Tang Yitao, veröffentlicht von 36Kr mit Genehmigung.

Dieser Artikel wurde ursprünglich von「极客公园」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Warum können alle Videomodelle nicht das "Zählen von 1 bis 10"?

01 Statistische Vorhersage vs. Weltverständnis: Die Grenzen der Fähigkeiten von AI-Videos

02 Ein anderer Weg: Weltmodelle