Warum es beim Erzeugen langer Videos zu Driften kommt: Die Rolle des gemeinsamen Rauschpegels für die Video

3 Stunden lang ohne Degradation generieren, um das autoregressive Videomuster zu revolutionieren

Das Problem, dass die autoregressive Videogenerierung im Laufe der Zeit immer schlechter wird, ist gelöst!

Mit der Entwicklung der Videogenerierung hin zu längeren Zeitreihen hat das autoregressive (AR) Diffusionsmodell aufgrund seiner Fähigkeit, strömungsorientierte Ausgabe zu unterstützen, breite Aufmerksamkeit in der akademischen und industriellen Welt erregt. Allerdings steht das bestehende AR-Generierungsparadigma beim Schritt in die "unendliche Länge" immer vor einem Kernproblem: die Fehlerakkumulation, die durch die Inkonsistenz zwischen Training und Inferenz verursacht wird. Dies führt dazu, dass die generierten Videos im Laufe der Zeit immer stärker an zeitlicher Drift und Bildverschlechterung leiden.

Um dieses Degradationsproblem zu lindern, haben die bestehenden Methoden verschiedene Ansätze versucht, wie die Simulation von Vorhersagefehlern, die Einführung des First frame sink oder des Self-rollout-Mechanismus. Aber alle diese Reparaturlösungen haben ihre eigenen Einschränkungen. Beispielsweise führt die Verwendung des frame sink oft zu einer starken Einschränkung der Szenenänderungen in den Videos.

Wo liegt eigentlich die Wurzel des Driftproblems bei langen Zeitreihen?

「Der ursprüngliche Zweck der autoregressiven Generierung」 und 「Die Falle des sauberen Kontexts」

Der ursprüngliche Zweck des autoregressiven Videogenerierungsmodells war es, wie ein Sprachmodell, Videos stückweise zu generieren, um die physischen Grafikspeicherbeschränkungen bei der einmaligen Generierung zu überwinden. In diesem Prozess ist es die gängige Praxis, abzuwarten, bis ein vorheriger Videoblock vollständig entrauscht und zu einem "sauberen" Bild geworden ist, bevor er als Bedingung für den nächsten Block eingegeben wird.

Ein Forschungsunternehmen, bestehend aus Mitgliedern der Universität von Wissenschaft und Technologie Chinas, der Chinese University of Hong Kong, der Tongji-Universität, Tencents Hunyuan und des Anhui Key Laboratory of Digital Security, hat nach Rückverfolgung der Ursachen festgestellt, dass dieser "zu saubere" Kontext genau der Schuldige für die zeitliche Drift ist. Bei der tatsächlichen Inferenz ist es unvermeidlich, dass die Generierung der vorherigen Blöcke kleine Vorhersagefehler aufweist. Wenn das Modell einen vollständig rauschfreien (oder nur minimal rauschbehafteten) Kontext erhält, nimmt es diese "Mängel" mit hoher Zuversicht als absolut korrekte reale Bedingungen an. Mit zunehmender Anzahl der autoregressiven Schritte wird dieser Fehler weitergeleitet und vervielfacht, was schließlich zu einer starken Drift führt.

HiAR: Ein vollständig entrauschter Kontext ist nicht erforderlich

Um 「die Gründe für das Fortbestehen der Drift zu untersuchen」 und 「dieses Problem effizient zu lösen」, haben die Teams der USTC, MMLab, Tongji und Hunyuan gemeinsam HiAR entwickelt.

Ist es erforderlich, dass die vorherigen Frames vollständig entrauscht werden?

Das Team hat zunächst das bidirektionale Diffusionsmodell (Bidirectional Diffusion) neu betrachtet. Bei der bidirektionalen Generierung teilen alle Videoframes das gleiche Rauschniveau und werden gleichzeitig entrauscht. Ohne dass die vorherigen Frames im Voraus vollständig entrauscht werden, kann die globale Kontinuität und Konsistenz aufrechterhalten werden. Im Wesentlichen liegt dies daran, dass das Diffusionsmodell oft ein coarse-to-fine-Generierungsmuster hat, und für die Entrauschung in der coarse-Phase reicht ein coarse-Kontext aus. Dieses Muster kann auch auf das Causal AR Diffusion übertragen werden. Basierend auf diesem Prinzip hat das Team die Abhängigkeiten zwischen den Frames neu geplant und ein hierarchisches Entrauschungsframework entwickelt.

HiAR wartet nicht mehr seriell darauf, dass ein vorheriger Videoblock vollständig generiert wird, sondern führt bei jedem Entrauschungsschritt eine kausale Generierung für alle Videoblöcke durch. Dies bedeutet, dass der Kontext und der aktuell generierte Block immer das gleiche Rauschniveau teilen. Diese einfache Umstrukturierung reduziert nicht nur die Fehlerübertragung zwischen den Blöcken erheblich, sondern bringt auch eine zusätzliche Überraschung: Sie unterstützt von Natur aus die parallele Inferenz in der Pipeline.

Wie vermeidet HiAR "starre Bewegungen"?

Beim Distillations-Training des autoregressiven Videomodells stößt das Forschungsunternehmen häufig auf ein hartnäckiges Problem: Um den Verlust leicht zu reduzieren, sucht das Modell nach Abkürzungen und neigt dazu, "Videos mit geringer Bewegungsamplitude" zu generieren, die fast stillstehen.

Um dieses Problem zu lösen, hat das Team während der Trainingsphase die Forward-KL-Regularisierung (Forward-KL regularizer) eingeführt. Hierbei wurde eine sehr interessante Entdeckung gemacht: Das aktuelle Distillations-Causal-Modell behält tatsächlich noch eine ziemlich gute bidirektionale Aufmerksamkeitsfähigkeit bei. Basierend auf diesem Phänomen berechnet das Team den Forward-KL-Regularisierungsverlust im bidirektionalen Aufmerksamkeitsmodus. Dadurch wird das Modell effektiv dazu gezwungen, die dynamische Vielfalt und die angemessene Bewegungsamplitude des Originalvideos zu bewahren, ohne den bestehenden Distillationsverlust zu stören.

Experimente haben gezeigt, dass dieses Design HiAR ermöglicht, die Bildstabilität aufrechtzuerhalten und gleichzeitig die hohe dynamische Expressivität des Lehrermodells perfekt zu bewahren.

Wie gut ist die Leistung von HiAR? Minutenlange Generierung ohne Degradation

Das Forschungsunternehmen hat HiAR in einem autoritativen VBench-Langzeitvideo-Test (20 s) umfassend evaluiert. Die Ergebnisse zeigen, dass HiAR die signifikanten Vorteile des aktuellen autoregressiven Modells aufweist. Insbesondere in Bezug auf die Stabilität bei langen Zeitreihen hat HiAR die niedrigste Drift Score (0,257) erreicht. Im Vergleich zu den Basismethoden ist die zeitliche Drift erheblich reduziert, und auch bei langen Zeitreihen bleibt die Bildqualität und die semantische Stabilität sehr hoch. Bei den Kernvisuellen Metriken wie Quality hat HiAR ebenfalls die besten Ergebnisse erzielt.

Was noch aufregender ist, hat HiAR tatsächlich eine minutenlange Videogenerierung ohne Degradation erreicht.

Bei den Tests des Teams hat HiAR es geschafft, ein 3-stündiges hochwertiges kontinuierliches Video zu generieren, obwohl es nur auf 5-sekündige Videos trainiert wurde.

Natürlich hat das Team auch offen zugegeben, dass aufgrund der fehlenden externen Memory-Module in der aktuellen Version und der Verwendung eines kleinen Wan1.3B-Modells für die Distillation die semantische Kontinuität und die Befolgung von Anweisungen in sehr langen Zeitreihen beeinträchtigt werden können. Aber die Bildqualitätsdegradation (drift) hat sich bereits stark verbessert (Sie können gerne den Open-Source-Code des Teams ausprobieren).

Ist die Inferenz von HiAR schnell?

Abgesehen von der Sprung in der Generierungsqualität sind die Vorteile von HiAR bei der technischen Umsetzung ebenfalls offensichtlich. Dank der hierarchischen Entrauschungsarchitektur, die die Kette des traditionellen AR-Modells "Block für Block seriell" gebrochen hat, hat das Team die Fähigkeit zur parallelen Inferenz in der Pipeline bei einer 4-Schritt-Entrauschungseinstellung freigeschaltet. Die experimentellen Daten zeigen, dass HiAR bei unveränderter Videoqualität eine etwa 1,8-fache Beschleunigung der Inferenz erreicht hat, die Durchsatzrate 30 fps beträgt und die Latenz pro Chunk auf nur 0,30 s reduziert ist. Dies ebnet den Weg für die Echtzeit-Strömungsgenerierung von hochwertigen Langzeitvideos.

Was ist der richtige Weg für die Langzeitvideogenerierung?

Die derzeitigen Methoden zur Lösung der Inkonsistenz zwischen Training und Inferenz sind die Simulation von Vorhersagefehlern, der first frame sink oder das self-rollout. Aber alle drei haben ihre eigenen Probleme.

HiAR bietet eine neue Idee für die Lösung dieses Problems bei der autoregressiven Langzeitvideogenerierung und beweist, dass ein einfaches gemeinsames Rauschniveau die Hexe der Fehlerakkumulation effektiv brechen kann. Die Methode des Teams ist unabhängig von der frame sink-Methode und den Methoden auf der Grundlage der Kontextkompression und hat großes Entwicklungspotential.

Titel der Studie: HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Link zur Studie: https://arxiv.org/abs/2603.08703

Code: https://github.com/Jacky-hate/HiAR

Webseite: https://jacky-hate.github.io/HiAR/

Dieser Artikel stammt aus dem WeChat-Account "QbitAI", Autor: HiAR-Team. Veröffentlicht von 36Kr mit Genehmigung.