Neueste Forschung von Yann LeCuns Team: Weltmodelle zur „Adaptivität“ befähigen – kontinuierliche Evolution durch Handlungen
Latente Weltmodelle ermöglichen es Robotern, die Zukunft vor dem Handeln abzuspielen und dann die Aktionen zu planen. Im Jahr 2022 hat das Team von Yann LeCun, Preisträger des Turing Awards, das Joint Embedding Prediction Architecture (JEPA) vorgeschlagen. Durch die Vorhersage der Zustandsentwicklung in der latenten Raum hat es die Vorhersage im Repräsentationsraum zu einem wichtigen Paradigma in der Forschung von Weltmodellen gemacht.
Das Problem ist, dass die Parameter der meisten Weltmodelle nach dem Training nicht mehr aktualisiert werden, was es schwierig macht, sich an die sich ändernden visuellen Bedingungen und physikalischen Eigenschaften in der realen Welt anzupassen. Sobald der Encoder oder der Prädiktor ungenau wird, wird der Fehler in der nachfolgenden Planung sukzessive vergrößert und führt schließlich zum Scheitern der Aufgabe.
Wir Menschen dagegen verfügen über einen sensorimotorischen Adaptionsmechanismus, der unsere Kernfähigkeit zur Anpassung an Umweltveränderungen ist. Wir kalibrieren unsere Handlungsvorhersagen basierend auf sensorischen Rückmeldungen und passen unsere Umweltwahrnehmung ständig anhand neuer Erfahrungen an.
Inspiriert von diesem biologischen Prinzip hat das Team von Yann LeCun das adaptiv latente Weltmodell AdaJEPA entwickelt, das während der Implementierung kontinuierlich lernen kann. Es integriert die Adaptive Embedding in die Modellprädiktionssteuerung (MPC): Nach jeder ausgeführten Aktion wird das Modell mit der tatsächlich beobachteten Zustandsänderung korrigiert und dann wird die Planung mit dem aktualisierten Modell neu durchgeführt.
Link zur Publikation: https://arxiv.org/abs/2606.32026
Die Ergebnisse zeigen, dass AdaJEPA die Planungserfolgsrate sowohl bei Aufgaben innerhalb der Verteilung als auch bei verschiedenen Verteilungsabweichungen stabil verbessern kann. Selbst wenn nur eine leichte Aktualisierung vor jeder Neupianung durchgeführt wird, ist es im Allgemeinen besser als Weltmodelle, deren Parameter nach dem Training nicht mehr aktualisiert werden.
Diese Arbeit eröffnet eine vielversprechende Richtung für adaptive Weltmodelle: Weltmodelle sollten während der Aktion kontinuierlich ihre Vorhersagen anhand echter Rückmeldungen kalibrieren und ihre Repräsentationen aktualisieren, um sich besser an die sich ändernde Umwelt anzupassen.
AdaJEPA: Ein Weltmodell mit "Adaption"
AdaJEPA ist ein adaptiv latentes Weltmodell, das die Vorhersagen während der Ausführung von Aufgaben durch Roboter kontinuierlich korrigieren kann. Nach jeder ausgeführten Aktion korrigiert das Modell die Abweichung anhand neuer echter Beobachtungen und plant dann neu. Der gesamte Prozess erfordert keine zusätzlichen Offline-Daten, Belohnungslabels oder Expertenbeispiele. Der gesamte Ablauf kann in vier Schritte zusammengefasst werden: Planung, Ausführung, Korrektur und Neupianung. Im Einzelnen:
Abbildung | AdaJEPA passt sich während des Tests in der geschlossenen Schleife MPC an.
- Planung: Das Modell simuliert intern die Zustandsänderungen in den nächsten Schritten, vergleicht mehrere Kandidatenpläne und wählt die Handlungssequenz aus, die am wahrscheinlichsten das Ziel erreicht.
- Ausführung: Nach der Planung führt das Modell nur die erste Aktion oder eine kurze Handlungssequenz aus und beobachtet dann die echte Rückmeldung aus der Umwelt. Die Zustandsänderungen vor der Ausführung werden aufgezeichnet und als Lernbeispiele für die nachfolgende Adaption verwendet.
- Adaption: Nach der Ausführung der Aktion schreibt AdaJEPA die in diesem Schritt auftretende Zustandsänderung in einen Online-Puffer und überprüft damit, ob die Modellvorhersage genau ist. Wenn es eine Abweichung zwischen der vorhergesagten nächsten Zustand und dem echten Ergebnis gibt, nimmt das Modell diesen Fehler als Aktualisierungssignal und führt eine leichte Korrektur durch, um sich auf die nächste Planung vorzubereiten.
- Neupianung: Nach der Adaption beginnt das Modell von der neuesten Beobachtung aus, nutzt das aktualisierte Weltmodell, um die nachfolgende Bahn neu vorherzusagen und erzeugt eine neue Handlungssequenz. Im gesamten Aufgabenprozess wird der Zyklus "Planung - Ausführung - Adaption - Neupianung" ständig wiederholt, so dass jede Planung auf der neuesten Beobachtung und dem neuesten Modell basiert.
Darüber hinaus führt AdaJEPA nur leichte Aktualisierungen durch, um die Echtzeitplanung nicht zu verlangsamen : Es passt nur wenige Parameter an, unterhält einen kleinen Online-Puffer und verwendet die Zielfunktion aus der Vorhersagephase. Im Einzelnen:
- Nur die kritischen Schichten aktualisieren: AdaJEPA aktualisiert nicht das gesamte Weltmodell, sondern nur wenige kritische Schichten im Encoder und Prädiktor. Dies reduziert nicht nur die Rechenlast, sondern auch die Störung der bestehenden Repräsentationen.
- Unterhaltung eines kleinen Online-Puffers: Der Puffer speichert standardmäßig die letzten 5 echten Zustandsänderungen. Das Forschungsteam hat zwei Speicherungsverfahren verglichen: recent-N speichert die neuesten Zustandsänderungen, hard-N speichert die Zustandsänderungen mit dem größten Prädiktionsfehler. Die Ergebnisse zeigen, dass es zwischen den beiden Verfahren nur geringe Unterschiede gibt, aber recent-N ist stabiler.
- Verwendung der Zielfunktion aus der Vorhersagephase: In der Adaptionsphase bleibt das gleiche Vorhersageziel wie in der Vorhersagephase bestehen. Die Repräsentation der echten Beobachtung wird als Überwachungssignal verwendet. Um die Störung der bestehenden Repräsentationen zu reduzieren, dient die Zielrepräsentation nur als Referenz und nimmt nicht an der Gradientenrückpropagation teil.
Wie gut ist die Leistung?
Gesamtbetrachtet kann AdaJEPA die Planungserfolgsrate sowohl bei Aufgaben innerhalb der Verteilung als auch bei verschiedenen Verteilungsabweichungen stabil verbessern. Das Forschungsteam hat das Modell in der Aufgabe des Objektverschiebens PushT / PushObj und der Labyrinthnavigation PointMaze evaluiert, die Szenarien mit Veränderungen in Form, Sichtbarkeit, Dynamik und Layout abdecken. Selbst wenn nur eine leichte Aktualisierung vor jeder Neupianung durchgeführt wird, ist AdaJEPA im Allgemeinen besser als Weltmodelle, deren Parameter nach dem Training nicht mehr aktualisiert werden. Die genauen Ergebnisse sind wie folgt:
1. Aufgaben innerhalb der Verteilung
Die Ergebnisse zeigen, dass die Adaption von AdaJEPA während des Tests nicht die ursprünglichen Fähigkeiten beeinträchtigt und die Aufgabenerfolgsrate weiter verbessert. Sowohl bei der direkten Optimierung der Handlungssequenz mit GD als auch bei der Suche nach Kandidatenaktionen durch Sampling und Filterung mit CEM ist die Erfolgsrate von AdaJEPA höher als die der Baseline ohne Adaption während des Tests. Die Verbesserung ist am deutlichsten in der Aufgabe des Objektverschiebens, wobei die maximale Erfolgsrate um mehr als 20 % steigt. In der Labyrinthnavigation zeigt das ursprüngliche Modell bereits eine starke Leistung, und AdaJEPA kann immer noch ein ähnliches Niveau aufrechterhalten, ohne deutliche Verschlechterung.
Abbildung | Planungserfolgsrate von PointMaze unter dynamischen und layoutmäßigen Veränderungen.
2. Aufgaben außerhalb der Verteilung
In Aufgaben mit deutlichen Umweltveränderungen ist der Vorteil von AdaJEPA noch ausgeprägter. Es aktualisiert das Weltmodell nach jeder Planung und Ausführung mit neuen echten Rückmeldungen, so dass die nachfolgende Planung besser an die aktuelle Umwelt angepasst ist und die Aufgabenerfolgsrate erhöht wird. Im Vergleich dazu können Modelle, die nach dem Training nicht mehr aktualisiert werden, diese neuen Beobachtungen nicht nutzen, und ihre Erfolgsrate erreicht oft schnell eine Obergrenze.
Abbildung | Planungserfolgsrate unter Form- und Sichtbarkeitsveränderungen.
Genauer betrachtet zeigt AdaJEPA in der Aufgabe des Verschiebens von Objekten mit verschiedenen Formen die stärkste Verbesserung, wenn während des Tests Objektformen auftreten, die während des Trainings nicht gesehen wurden. Die Erfolgsrate nähert sich der Verdopplung. Bei visuellen Störungen sind die Gewinne durch Unschärfe, Rauschen und dunkles Licht deutlicher. Wenn nur die Ankerpunkte oder die Objektfarbe geändert werden, ist der Vorteil von AdaJEPA relativ begrenzt. In der Labyrinthnavigation von PointMaze kann AdaJEPA sich auch an dynamische Veränderungen und neue Labyrinthlayouts anpassen und eine Bahn planen, die der kürzesten Route näher kommt.
Abbildung | Planungsbahnen in verschiedenen Labyrinthen.
Abbildung | Planungsbahn von PointMaze-Medium unter dynamischen Veränderungen.
3. AdaJEPA verbessert die Leistung bei verschiedenen JEPA-Implementierungen
Um zu überprüfen, ob AdaJEPA von einer bestimmten Modellimplementierung abhängt, hat das Forschungsteam in der Aufgabe des Objektverschiebens PushT verschiedene Repräsentationsformen, Modellarchitekturen, Trainingsziele und Planer getestet. Die Ergebnisse zeigen, dass AdaJEPA in diesen Einstellungen die Planungserfolgsrate verbessern kann ; selbst wenn das Basismodell ausreichend trainiert wurde und die Evaluierung innerhalb der Verteilung liegt, bringt die Adaption während des Tests immer noch stabile Gewinne, und jede Neupianung erhöht die Verzögerung nur um etwa 0,01 - 0,03 Sekunden.
Abbildung | Leistung von AdaJEPA bei verschiedenen Implementierungen.
4. AdaJEPA korrigiert bestehende Vorhersagen, anstatt eine neue Welt von Grund auf zu lernen
Die Visualisierungsergebnisse zeigen, dass die Adaption von AdaJEPA eher eine Kalibrierung als ein Neulernen ist. Nachdem das Forschungsteam die adaptiven Vorhersagebahnen decodiert hat, hat es festgestellt, dass auch bei visuellen Störungen oder unbekannten Formen die Decodierungsergebnisse tendenziell die Strukturmerkmale aus der Trainingsverteilung beibehalten. Beispielsweise wird ein rotes Quadrat in ein graues Quadrat decodiert, wie es im Training häufig vorkommt, und unbekannte Formen werden in ähnliche bekannte Formen decodiert.
Abbildung | Beispiel für die Planungsbahn von AdaJEPA unter visuellen und Formveränderungen.
5. Ablationsversuche und Analysen
Die Ergebnisse der Ablationsversuche zeigen, dass AdaJEPA keine umfassende Aktualisierung erfordert und nicht von komplizierten Parameteranpassungen abhängt; die Aktualisierung von wenigen kritischen Schichten, eine einstufige Gradientenaktualisierung und ein Puffer für die jüngsten Zustandsänderungen können bereits stabile Gewinne bringen.
Zunächst aktualisiert AdaJEPA nur einige Schichten des Encoders oder Prädiktors oder führt eine leichte Aktualisierung mit LoRA durch. Die Gesamtleistung ist in beiden Fällen besser als die der Baseline ohne Adaption während des Tests, was zeigt, dass es nicht das gesamte Modell neu trainieren muss.
Zweitens variiert der Bedarf an Aktualisierungspositionen je nach Verteilungsabweichung. Bei Formveränderungen gibt es nur geringe Unterschiede zwischen verschiedenen Aktual