Der "No. 1 Spieler" wird Realität: NTU stellt neues Paradigma für Interaktion mit Weltmodellen vor und löst Problem des aktiven Manipulierens

Hand2World: Gestensteuerte künstliche Intelligenz generiert interaktive Videos und realisiert geschlossene Interaktionen.

【Einführung】Das MMLab-Team der Nanyang Technological University hat Hand2World vorgestellt, wodurch das künstliche Weltmodell tatsächlich „die Hand ausstreckt“ und interagiert. Mit bloßem Gestikieren in der Luft kann das Modell realistische Videos von Erstpersoneninteraktionen generieren und in Echtzeit auf Anpassungen reagieren. Es vermeidet die alten Störungen durch Verdeckungen und trennt die Bewegungen von Hand und Kopf mithilfe einer 3D-Handstruktur und Strahlenkodierung. So wird erstmals eine geschlossene, kontinuierliche Interaktion ermöglicht. Basierend auf einer vollautomatischen Annotation von Monokularvideos ebnet es den Weg für die Interaktion in AR und bei Robotern. Das Weltmodell kann nun nicht nur „sehen“, sondern auch „berühren“.

Sora kann realistische visuelle Welten generieren, und Genie 3 ermöglicht es Ihnen, sich frei in 3D-Szenen zu bewegen – aber Sie können immer nur „sehen“ und nicht hineingreifen, um die Tasse auf dem Tisch zu greifen.

Die gegenwärtigen Weltmodelle haben bereits „Augen“ und „Beine“ – sie können die Umgebung wahrnehmen und die Perspektive verändern, fehlen aber immer noch an einer „Hand“.

Sehen und Bewegen, aber keine Interaktion ist die letzte Hürde, die Weltmodelle überwinden müssen, um von der passiven Beobachtung zur aktiven Steuerung zu gelangen. Die primitivste Schnittstelle für die Interaktion zwischen Menschen und der physischen Welt sind Gesten.

Das MMLab-Team der Nanyang Technological University hat Hand2World[1] vorgeschlagen – bei Vorlage eines Szeneriebildes kann der Benutzer einfach Gesten in der Luft ausführen, und die KI kann dann realistische Erstpersonenvideos generieren, in denen die Hand in die Szenerie hineingreift, um eine Tasse zu greifen, ein Buch zu blättern oder eine Schachtel zu öffnen. Und dies ist keine einmalige Generierung: Der Benutzer kann die Gesten während der Generierung anpassen, und das Modell passt sich in Echtzeit an – so wird eine echte geschlossene Interaktion geschaffen.

Link zur Studie: https://arxiv.org/abs/2602.09600

Projekt-Website: https://hand2world.github.io

Warum funktionieren bestehende Methoden nicht?

Stellen Sie sich vor, Sie hätten eine KI trainiert, die Tausende von Videos von Menschen, die Tassen greifen, gesehen hat. Wenn Sie ihr jetzt eine in der Luft schwingende Hand zeigen, weiß sie nicht, was sie tun soll. Denn in den Trainingsdaten ist die Hand immer halb von der Tasse oder dem Buch verdeckt, und die KI hat nie eine „volle Hand“ gesehen. Als Ergebnis erzeugt sie bei einer vollständigen Handform sogar Verdeckungen, die nicht existieren.

Dies ist der Todfehler aller Methoden, die auf 2D-Handmasken basieren – bei der Trainingsphase werden unvollständige Hände gesehen, während bei der Inferenzphase vollständige Hände empfangen werden, was zu einer direkten Fehlanpassung der Verteilung führt. Dies wird in der folgenden Abbildung deutlich gezeigt: In der oberen Reihe ist die Maske in den Trainingsszenarien von Objekten abgeschnitten, in der unteren Reihe ist die Maske bei freien Gesten vollständig. Aus diesem Grund erzeugen bestehende Methoden (z. B. CosHand) starke Artefakte.

Fehlanpassung der Maskenverteilung vs. verdeckungsunabhängiges Signal von Hand2World

Um die Lage noch zu verschlimmern, sind die Handbewegungen und die Kopfbewegungen des Trägers in Erstpersonenvideos vollständig miteinander verwoben – das Modell kann nicht unterscheiden, „ob die Hand sich bewegt oder der Kopf“, und der Hintergrund verschiebt sich daher zusammen mit der Hand.

Kürzlich haben auch einige Arbeiten versucht, Erstpersonenweltmodelle voranzutreiben – z. B. hat PlayerOne[2] durch die synchrone Paarung von Erst- und Drittpersonenkameras den Selbstbewegungsmodelierung wichtige Fortschritte erzielt.

Aber diese Herangehensweise beschränkt sowohl die Skalierbarkeit der Daten als auch die praktische Anwendbarkeit. Kann man alle obigen Probleme nur aus Monokularvideos lösen? Dies ist der Ausgangspunkt der Forschung von Hand2World.

Wie erreicht Hand2World dies?

Methodenflussdiagramm

Das Modell „sehen“ lassen, wie die Hand vollständig ist

Hand2World verzichtet vollständig auf 2D-Masken. Es rekonstruiert aus Monokularvideos ein vollständiges 3D-Handnetz (MANO-Modell), projiziert es auf die Bildebene und rendert es zu einem zusammengesetzten Signal aus „gefülltem Umriss + Drahtgitterüberlagerung“. Unabhängig davon, ob die Hand von Objekten verdeckt ist oder nicht, hat dieses Steuersignal immer das gleiche Format.

Der Schlüsselgedanke: Die Verdeckungsverhältnisse sind nicht hartcodiert im Eingangssignal, sondern werden vom Generierungsmodell anhand des Szenenkontexts selbst abgeleitet. Die Drahtgitterüberlagerung kann auch zusätzliche Gelenkstrukturinformationen liefern, wenn die Hand zur Kamera zeigt und die Finger einander verdecken – etwas, das ein reiner Umriss nicht leisten kann.

Unterscheiden, ob die „Hand sich bewegt“ oder der „Kopf sich bewegt“

Nach Entfernen des Kameramodellierungsmoduls stieg der FVD von 218 direkt auf 815 – der Hintergrund begann sich zusammen mit der Hand zu verschieben.

Hand2World codiert die Kamerabewegung explizit mithilfe von Plücker-Strahlen-Einbettungen pro Pixel und injiziert sie auf additiver Weise über einen leichten Adapter in das Diffusionsmodell. Dadurch werden die Handgelenkbewegungen und die Kopfbewegungen vollständig voneinander getrennt.

Vergleich der Kamerasteuerung. Ohne Kamerabedingung (obere Reihe) verschiebt sich der Hintergrund stark, nach Hinzufügung der Plücker-Strahlen (mittlere Reihe) stimmt er stark mit dem realen Video (untere Reihe) überein.

Geschlossene Interaktion, unendliche Fortsetzung

Hand2World destilliert ein bidirektionales Diffusionslehrermodell zu einem kausalen autoregressiven Generator und erhält die zeitliche Kohärenz mithilfe eines KV-Caches, um einen strömenden Output zu ermöglichen. Dadurch wird das gesamte System geschlossen – der Benutzer kann die Gesten während des Betrachtens anpassen, und das Modell reagiert kontinuierlich, so dass die Interaktion unendlich fortgesetzt werden kann.

Experimentelle Ergebnisse: Spitzenleistungen in drei Datensätzen

Es wurden in allen drei Erstpersoneninteraktionsdatensätzen ARCTIC, HOT3D und HOI4D die besten Ergebnisse erzielt. Nehmen wir ARCTIC als Beispiel:

FVD: 908 → 218 (Verringerung um 76%)
Kameratrajektorienfehler: 0.13 → 0.07 (Verringerung um 42%)
DINO-Semantische Ähnlichkeit: 0.80 → 0.88
Tiefenübereinstimmung: Depth-ERR von 22.51 auf 16.14 gesenkt

Die Leistung von Hand2World-AR nach der Destillation ist der des Lehrermodells (FVD 232) nahe, und es erreicht auf einer einzigen A100-Karte 8.9 FPS.

Der Datendrehkreis der embodied Intelligence: Vollautomatische Monokularannotation

Woher stammen die Trainingsdaten von Hand2World? Im Gegensatz zu Lösungen wie PlayerOne, die auf die synchrone Datenerfassung mit mehreren Kameras angewiesen sind, hat das Team eine vollautomatische Monokular-Annotierungspipeline entwickelt – ohne Mehrfachkameraanordnung und ohne manuelle Annotation, sondern direkt aus normalen Erstpersonenvideos werden automatisch Handnetze, Kameratrajektorien und Trainingsdatenpaare extrahiert. Dies bedeutet, dass jeder vorhandene egozentrische Videoabschnitt in ein Trainingssignal umgewandelt werden kann – es wird eine wirklich skalierbare Lösung für die Datensammlung in der embodied Intelligence bereitgestellt.

Von „die Welt sehen“ zu „die Welt berühren“

Als erster Versuch, Gesteninteraktion in Weltmodelle einzuführen, hat Hand2World ein komplettes System von der Datenannotation bis zur geschlossenen Generierung aufgebaut. In einer Zeit, in der die Videogenerierungsfähigkeiten schnell zunehmen, kann dieses System möglicherweise in der Gesteninteraktion von AR/MR-Brillen, der Synthese von Roboter-Hand-Objekt-Interaktionsdaten und der Erstellung interaktiver virtueller Umgebungen aus einem einzigen Foto eingesetzt werden.

Wenn Weltmodelle nicht mehr nur passiv Bilder generieren, sondern auf jede Geste des Benutzers reagieren und kontinuierlich evolvieren – der Abstand von „die Welt sehen“ zu „die Welt berühren“ ist vielleicht näher, als wir denken.

Referenzen:

[1] Wang et al., "Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures," arXiv:2602.09600, 2026.

[2] Tu et al., "PlayerOne: Egocentric World Simulator," Advances in Neural Information Processing Systems (NeurIPS), 2025.

Dieser Artikel stammt aus dem WeChat-Account „Xinzhiyuan“, Redaktion: LRST, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。