Kontrollierbarkeit und Natürlichkeit müssen nicht mehr gegeneinander aufgewogen werden. Die Anzahl der Tokens wird auf 1/6 reduziert. NTU und die Chinese University of Hong Kong haben es geschafft, dass die Bewegung mit zunehmender Kontrolle natürlicher wird.
Möchten Sie, dass die Bewegungserzeugung sowohl beherrschbar als auch natürlich und flüssig ist?
Bei den bestehenden Methoden wird die Bewegung steif, wenn die Kontrolle stark ist, und es neigt dazu, abzuweichen, wenn man die Natürlichkeit bewahren möchte. Man muss immer eine der beiden Anforderungen opfern.
Um dieses Dilemma zu lösen, hat das Forschungsteam der Nanyang Technischen Universität und der Chinesischen Universität Hongkongs MoTok vorgeschlagen. Das Team ist der Meinung, dass die bestehenden Methoden zwei Arten von Aufgaben, die eigentlich nicht zusammen gemischt werden sollten, in die gleiche Erzeugungsphase stopfen:
Eine Art ist die hochschichtige semantische Planung, die bestimmt, "was" die Bewegung tun soll; die andere Art ist die Rekonstruktion und Kontrolle von niederschichtigen Details, die bestimmt, "wie" die Bewegung genau durchgeführt werden soll.
Die erste erfordert eine globale und konsistente Fähigkeit zur Bewegungsorganisation, während die zweite lokale und hochfrequente feingranulare Einschränkungen betont. Wenn beide in der gleichen Phase miteinander in Konflikt geraten, ist es schwierig, sowohl Kontrollierbarkeit als auch Natürlichkeit zu erreichen.
MoTok hat den diffusion-basierten diskreten Bewegungstokenizer erfunden und ein neues universelles Paradigma für die bedingte Bewegungserzeugung (conditional motion generation) vorgeschlagen, das die Vorteile von diskreten Tokens und kontinuierlicher Diffusion effizient kombiniert. Bei einer signifikanten Tokenmenge-Kompression (1/6 der SOTA-Methode) reduziert MoTok den Bahnfehler um 89% (0,72 cm → 0,08 cm), den FID um 65% (0,083 → 0,029) und beobachtet eine weitere Reduzierung des FID um 58% (0,033 → 0,014) unter verbesserter Gelenkbahnkontrolle, wodurch das Dilemma der bestehenden Methoden überwunden wird und "je stärker die Kontrolle, desto natürlicher die Bewegung" erreicht wird.
Drei-Phasen-Aufteilung: Ein universelles Paradigma für die Bewegungserzeugung
MoTok hat ein universelles Perception–Planning–Control-Drei-Phasen-Paradigma für die bedingte Bewegungserzeugung vorgeschlagen: Zunächst versteht man die Bedingungen, dann macht man die semantische Planung im diskreten Tokenraum und schließlich rekonstruiert und kontrolliert man die Bewegungsdetails feingranular mit einem diffusion-basierten Decoder.
Durch die flexible Form der globalen ("was insgesamt zu tun ist")/lokalen ("worauf in jedem Moment geachtet werden muss") Bedingungseingabe kann die Perception-Phase verschiedenen Bedingungseingaben und Bewegungserzeugungsaufgaben angepasst werden. Die beiden Phasen Planning und Control behandeln jeweils die Aufgaben, für die sie besser geeignet sind, wodurch die Vorteile von diskreten Tokens und kontinuierlicher Diffusion effektiv kombiniert werden und die Beschränkungen der bestehenden Modelle - ob globale Diffusionsmodelle oder diskrete Token-Erzeugungsmodelle - überwunden werden, die hochschichtige semantische Planung und niederschichtige Detailrekonstruktion und -kontrolle in der gleichen Erzeugungsphase zu behandeln.
Tokenmenge um ein Sechstel reduzieren, Bewegungsqualität verbessern
Bei den traditionellen Methoden auf der Grundlage von diskreten Tokens müssen die Tokens sowohl die hochschichtige Semantik für die Planung beibehalten als auch genügend niederschichtige Details für die Rekonstruktion enthalten. Dies erhöht die Anzahl der Tokens und macht es für den nachgelagerten Generator schwieriger, zu lernen.
MoTok nutzt die starke Detailrekonstruktionsfähigkeit des diffusion-basierten Decoders, um den diskreten Tokens semantische Informationen beizubehalten, die für die Planung nützlicher sind. Dadurch können die Tokens kompakter sein und die Planning-Phase wird leichter zu erzeugen.
In der Dissertation wurden aufschlussreiche Vergleichsexperimente durchgeführt (siehe Tabelle unten). Die Autoren verglichen zunächst nur die Fähigkeiten des Decoders auf exakt gleichen diskreten Tokens: Wenn der Encoder und das Codebuch eingefroren wurden und nur der ursprüngliche Decoder durch den MoTok diffusion-basierten Decoder ersetzt wurde, konnte die Rekonstruktionsqualität deutlich verbessert werden. Dann verglichen die Autoren weiter die Qualität der Tokens selbst: Wenn die ursprünglichen Tokens durch MoTok-Tokens ersetzt wurden, wurde bei der Text-zu-Bewegung (text-to-motion, T2M)-Erzeugung eine deutliche Verbesserung beobachtet, unabhängig davon, welcher Decoder dahinter folgte. Bei der Bewegung-zu-Text (motion-to-text, M2T)-Aufgabe konnten die MoTok-Tokens auch leichter in genaue Textdeskriptionen übersetzt werden.
Für die T2M-Aufgabe wurden verschiedene Methoden zur Erzeugung diskreter Tokens getestet: diskrete Diffusion (DDM) und autoregressive (AR) Methode. Beide Tokenizer können eine bessere Bewegungserzeugungsfähigkeit bieten. MoTok-DDM-4 reduziert den FID von 0,045 auf 0,039 mit nur einem Sechstel der Tokens der SOTA-Methode (MoMask). Der leistungsstärkere MoTok-DDM-2 erreicht 0,033 mit einem Drittel der Tokens. MoTok-AR-4 reduziert den FID der SOTA-Methode (T2M-GPT) von 0,141 auf 0,053.
Je stärker die Kontrolle, desto natürlicher die Bewegung: Konflikt zwischen Text- und Bewegungssteuerung lösen
In früheren Arbeiten wurde festgestellt, dass die Qualität der textbasierten Bewegungserzeugung immer schlechter wird, wenn die Gelenkbahnbedingungen von Null an immer stärker werden.
MoTok ist der Meinung, dass dies daran liegt, dass die Gelenkbahnbedingungen und die Textbedingungen in der gleichen Erzeugungsphase in Konflikt geraten. Die hochfrequenten und lokalen Detailkontrollen stören die semantische Planung der Bewegung zu früh.
Darum schlägt MoTok eine von grob nach fein gehende Kontrolleinfügung vor: In der Planning-Phase nehmen die Gelenkbahnen in Form grober Einschränkungen (coarse constraints) an der Bewegungsplanung teil; in der Control-Phase werden sie dann in Form feingranularer Einschränkungen (fine-grained constraints) durch die Diffusionsiteration kontinuierlicher Merkmale optimiert.
Indem "was zu tun ist" und "wie es genau zu tun ist" in verschiedene Phasen aufgeteilt werden, wird die Harmonie zwischen Text- und Bewegungssteuerungsbedingungen erreicht und das Dilemma der bestehenden Methoden überwunden.
In der Dissertation wurde auch ein Ablationsexperiment zur Wirksamkeit der Zwei-Ström-Eingabe durchgeführt (siehe Tabelle unten): Wenn nur die groben Einschränkungen in der Planning-Phase (Generator) beibehalten werden, kann das Modell zwar die Steuerabsicht wahrnehmen, aber der Bahnkontrollfehler (Ctrl. Err.) steigt stark an. Wenn nur feingranulare Einschränkungen in der Control-Phase (Tok. Decoder) angewendet werden, wird die Bewegungsverteilung (Ctrl. FID) deutlich beeinträchtigt.
Abschluss
MoTok verhindert, dass die hochschichtige Semantik und die niederschichtigen Details sich in der gleichen Repräsentation gegenseitig behindern, und schafft eine natürlichere Verbindung zwischen "Planung" und "Kontrolle". Dadurch hat die bedingte Bewegungserzeugung die Möglichkeit, gleichzeitig eine stärkere Kontrollierbarkeit, eine höhere Bewegungsnatürlichkeit und eine bessere Aufgabenuniversalität zu erreichen. Dieses Paradigma bietet auch eine vielversprechende Richtung für breitere Szenarien wie Embodied AI und digitale Menschen.
Projekt-Website: https://rheallyc.github.io/projects/motok/
Link zur Dissertation: https://arxiv.org/pdf/2603.19227v1
Link zu GitHub: github.com/rheallyc/MoTok
Dieser Artikel stammt aus dem WeChat-Account "Liangziwei", Autor: MoTok-Team, veröffentlicht von 36Kr mit Genehmigung.