StartseiteArtikel

Weltmodelle == VQA? Roboter müssen keine Bilder vorstellen, es reicht, wenn sie die Semantik vorhersagen.

机器之心2025-10-28 10:56
Das Problem der Weltmodellierung kann als ein VQA-Problem bezüglich zukünftiger Ergebnisse neu definiert werden.

Muss ein Roboter wirklich ein präzises Bild der Zukunft in seinem Weltmodell vorstellen können? In einer neuen Studie stellen Forscher aus der Universität von Washington und Sony AI diese Frage auf.

Es ist bekannt, dass Weltmodelle eine Lernmethode sind, mit der KI "die Zukunft vorstellen" kann. Sie können aus einer großen Menge von Daten die Gesetze des Weltablaufs lernen und dann anhand des aktuellen Zustands vorhersagen, was in Zukunft passieren könnte. Diese Fähigkeit ist von entscheidender Bedeutung, denn wenn KI die Zukunft vernünftig vorhersagen kann, kann sie im Voraus kluge und robuste Handlungsstrategien planen.

In der Praxis gibt es verschiedene Formen von Weltmodellen, von kleinen zustandsbasierten Dynamikmodellen bis hin zu großen handlungsbedingten Videovorhersagemodellen. Unabhängig von ihrer Form versuchen die meisten Modelle, "ein Bild der Zukunft wiederherzustellen". Diese Methode kann zwar oft realistische Bilder generieren, eignet sich aber nicht unbedingt für Entscheidungsfindung. Der Grund dafür ist, dass selbst die realistischsten Bilder möglicherweise wichtige semantische Details verpassen, wie zum Beispiel, ob zwei Objekte tatsächlich in Kontakt kommen.

In der Vergangenheit gab es einige Ansätze, die versuchten, nur "aufgabenrelevante" Informationen zu modellieren. Diese Ansätze erfordern jedoch oft zusätzliche Annahmen, wie die Kenntnis der Belohnungsfunktion oder bestimmter bekannter Faktoren in der Aufgabe. Dies macht sie in der Praxis weniger flexibel.

Wenn Pixelinformationen für die Planung nicht unbedingt erforderlich sind, was ist dann wirklich notwendig, um Handlungsentscheidungen zu treffen?

Diese Studie schlägt vor: Es genügt, wenn man semantische Informationen über zukünftige Ergebnisse vorhersagen kann. Weltmodelle sollten nicht mehr darauf abzielen, ursprüngliche visuelle Bilder zu prognostizieren, sondern sollten die aufgabenrelevanten Objekte und ihre Interaktionen erfassen, wie etwa: "Ist der Roboterarm näher am Zielobjekt?" "Ist der rote Würfel umgefallen?" "Wurde der blaue Ball aufgehoben?"

Die Studie modelliert diese Informationen als ein visuelles Fragestellungs- und Beantwortungsproblem (VQA) über die Zukunft, indem sie sich der Tatsache bedient, dass jedes Zielergebnis durch eine Reihe von "Ja/Nein"-Fragen ausgedrückt werden kann. Mit anderen Worten, das Problem der Weltmodellierung kann neu als ein VQA-Problem über zukünftige Ergebnisse definiert werden.

Es gibt bereits eine Klasse von Modellen, die über ein vollständiges System für visuelle Fragestellung und Beantwortung verfügen, nämlich visuelle Sprachmodelle (VLM). Bei der Weltmodellierung haben VLM zwei Vorteile:

Erstens haben sie durch umfangreiche Vortrainingsmaßnahmen eine starke Fähigkeit zur visuellen Fragestellung und Beantwortung sowie eine breite Generalisierungsfähigkeit erworben;

Zweitens codieren sie Vorwissen über die semantischen Merkmale von Aufgaben und Szenarien.

Diese Vorteile ermöglichen es modernen VLM, aufgabenrelevante Fragen zu stellen und bei statischen Beobachtungen zuverlässige Antworten zu geben. Sie fehlt jedoch die Fähigkeit, zukünftige Ergebnisse vorherzusagen, was ihre direkte Anwendung in Entscheidungsaufgaben einschränkt.

Deshalb schlägt die neue Studie das Konzept des "Semantischen Weltmodells (Semantic World Model, SWM)" vor. Das SWM ist ein generalisierbares Weltmodell in Form eines handlungsbedingten visuellen Sprachmodells, das Fragen über die semantischen Auswirkungen zukünftiger Handlungen beantworten kann.

Titel der Studie: SEMANTIC WORLD MODELS

Link zur Studie: https://arxiv.org/pdf/2510.19818

Link zum Projekt: https://weirdlabuw.github.io/swm/

Im Gegensatz zu herkömmlichen Weltmodellen, die zukünftige Bilder vorhersagen, beantwortet das SWM bei gegebener aktueller Beobachtung (Bildrepräsentation) und Handlungssequenz natürliche Sprachfragen über die Zukunft.

Wie in Abbildung 1 gezeigt, umfasst die Eingabe des Modells die aktuelle Beobachtung, eine Reihe von geplanten Handlungen und eine natürliche Sprachfrage über die Zukunft. Das Modell versteht die Auswirkungen dieser Handlungen in der Umgebung und generiert eine entsprechende Textantwort.

Da das SWM im Wesentlichen ein aufgabenunabhängiges Weltmodell ist, kann es mit sehr geringer Qualität von allgemeinen Sequenzdaten trainiert werden, einschließlich Spiel- und suboptimalen Daten. Die Trainingsdaten können leicht aus jedem (experten- oder nichtexpertenbasierten) Datencorpus gewonnen werden und haben das Format aktuelle Beobachtungsergebnisse, Handlungen, (über die Zukunft) gestellte Fragen und erwartete Antworten.

Durch die Verwendung des SWM zur Vorhersage zukünftiger Ergebnisse kann KI flexibel und in einer offenen Welt Mehrfachaufgaben planen.

Wenn die Aufgabe in natürlicher Sprache beschrieben wird, kann das System die Ziele auf zwei Arten verstehen: Entweder nutzt es ein vortrainiertes VLM, um die Aufgabe automatisch zu analysieren, oder ein Mensch zerlegt die Aufgabe in eine Reihe von "Frage - erwartete Antwort"-Paaren in Textform. Nachdem diese Fragen und Antworten vorliegen, kann das SWM verwendet werden, um Handlungen zu planen, die die Wahrscheinlichkeit erhöhen, dass in Zukunft diese erwarteten Antworten erhalten werden.

Bei einer Aufgabenbeschreibung in natürlicher Sprache kann man entweder ein vortrainiertes VLM nutzen oder die Aufgabenbeschreibung manuell in eine Reihe von Fragen und erwarteten Antworten in Textform zerlegen. Mit diesem Fragen - Antwort - Satz kann das SWM verwendet werden, um Handlungen zu planen, die es sehr wahrscheinlich machen, dass in Zukunft die erwarteten Antworten auf diese Fragen erhalten werden.

Obwohl es zahlreiche Techniken für diese Art der Planung gibt, zeigt diese Studie, dass sie sowohl mit nullten Stufen - samplingbasierten Methoden als auch mit ersten Stufen - Gradientenplanungsmethoden kompatibel ist, die auf das Ziel der erwarteten Wahrscheinlichkeit optimiert werden. Die Studie zeigt, dass diese Planungsmethoden rechnerisch durchführbar sind und im Vergleich zu herkömmlichen Handlungsauswahlmethoden bei den Tests signifikante Verbesserungen bringen. Darüber hinaus wird die Skalierbarkeit dieser Planungsmethoden für mehrstufige, langfristige Probleme gezeigt.

In Bezug auf die Experimente wurde das SWM in zwei gängigen Mehrfachaufgaben - Simulationsumgebungen, Language Table (LangTable) und OGBench, evaluiert. Die Ergebnisse zeigen, dass das SWM Fragen über zukünftige Ergebnisse genau beantworten kann und auf neue Szenarien generalisieren kann. Das SWM kann mit standardmäßigen samplingbasierten Planungstechniken und gradientenbasierten Verbesserungstechniken kombiniert werden, um durch Optimierung bei den Tests signifikante Strategieverbesserungen zu erzielen und so verschiedene Roboteraufgaben zu lösen.

Zusammenfassend repräsentiert das SWM eine neue Klasse von Weltmodellen, die das reiche Vortrainingswissen von VLM nutzt, um eine praktikable, flexible und skalierbare Robotersteuerung zu ermöglichen.

Überblick über das Semantische Weltmodell

Die folgende Abbildung 2 zeigt einen Überblick über das Semantische Weltmodell. Das SWM ist ein visuelles Sprachmodell, das so angepasst wurde, dass es Fragen über die Zukunft beantworten kann, die durch die Handlungen bestimmt werden, mit denen das Modell angepasst wird. Durch eine Reihe von Fragen und erwarteten Antworten können die Vorhersagen in Planungssignale umgewandelt werden, und die Handlungssequenz kann iterativ optimiert werden.

Datensatzgenerierung

Um ein Weltmodell zu trainieren, das Fragen über die Zukunft beantworten kann, wurde in dieser Studie ein Zustands - Handlungs - Frage - Antwort - Datensatz (SAQA) erstellt. Abbildung 3 zeigt die Paarung eines einzelnen Zustands mit mehreren Fragen und Antworten in diesem Datensatz.

Architekturübersicht

Das SWM ist ein Modell, das bei gegebener Handlungsbedingung Fragen über zukünftige Ereignisse beantworten kann. Ein Modell mit dieser Fähigkeit ist im Wesentlichen ein handlungsbedingtes visuelles Fragestellungs - und Beantwortungsmodell. Daher ist es naheliegend, von einem großen vortrainierten visuellen Sprachmodell (VLM) auszugehen und seine Generalisierungsfähigkeit auf Roboteraufgaben zu übertragen. Diese SWM - Architektur basiert auf dem quelloffenen visuellen Sprachmodell PaliGemma.

Dieses Modell umfasst drei Kern - vortrainierte Komponenten: Ein auf Transformer basiertes autoregressives Sprachmodell (mit einer Token - Einbettungsgröße von d_tok), einen visuellen Encoder v_ϕ (mit einer Merkmalsgröße von d_img) und eine Projektionsmatrix

. Die PaliGemma - Architektur basiert auf zwei separat trainierten Komponenten: Das große Sprachmodell Gemma und der SigLIP - Bildencoder V_sc. W wird verwendet, um von Z_sc auf Z_LLM zu projizieren, wobei Z_sc der Merkmalsraum von v_ϕ und Z_LLM der Eingabetoken - Einbettungsraum des großen Sprachmodells ist. In dieser Studie wird der 3 - Milliarden - Parameter - Checkpoint von PaliGemma als Basismodell verwendet.

Um dem Basismodell zu ermöglichen, Fragen über "eine bestimmte Zukunft (verursacht durch Handlungen)" zu beantworten, muss das Modell auf diese Handlungen konditioniert werden. Dazu führt der Autor eine neue Projektionsmatrix ein

, die eine einzelne Handlung

in einen latenten Raum Z_LLM projiziert, der ähnlich dem der Projektionsmatrix W ist.

Gegeben ein Tupel (S_i, a_{i:j}, Q_{S_j}, A_{S_j}) aus dem Datensatz D_SAQA, wird die Eingabesequenz durch das Aneinanderfügen von Bild - Einbettungen, Handlungs - Einbettungen und Frage - Token - Einbettungen erstellt:

Anschließend wird das Modell end - to - end feinabgestimmt, indem die Standard - Kreuzentropie - Verlustfunktion

optimiert wird, um die Zielantwort A_{S_j} vorherzusagen.

Dieser Trainingsvorgang ermöglicht es dem Modell, die Dynamik der Umgebung im Sprachraum zu erfassen und so Fragen über zukünftige Zustände zu beantworten, ohne dass eine explizite Pixel - Darstellung generiert werden muss.

Experimentelle Ergebnisse

Ist das SWM ein effektives Weltmodell für die Entscheidungsfindung?

Zunächst evaluieren die Autoren die Planungsfähigkeit des SWM, indem sie die