首页文章详情

Überwindung des Gedächtnisproblems bei der Erzeugung von Langzeitvideos: Die Universität von Hongkong und Kuaishou's Keling MemFlow entwickeln ein dynamisch adaptives Langzeitgedächtnis, um schnelles Vergessen und Handlungsverwirrungen zu vermeiden

量子位2025-12-25 15:49
Mit KI können lange Filme gedreht werden, ohne mehr willkürliche Erfindungen! Geringer Leistungsverlust, Effekte auf Augenhöhe mit dem aktuellen Stand der Technik (SOTA).

Haben Sie sich jemals über die Inkohärenz von AI-generierten Videos geärgert?

Bei interaktiver Kreativität kann sich die Geschichte plötzlich "zusammenbrechen", wenn man nur ein Stichwort wechselt: Ein Charakter verlässt den Bildschirm kurzzeitig und erscheint erneut, aber "sieht völlig anders aus", als ob ein anderer Schauspieler eingesetzt würde. Oder wenn man einen neuen Charakter einführen möchte, ruft die AI diesen neuen Charakter in der Folgegeschichte immer wieder "herbei" und vermischt sogar die Merkmale mehrerer Charaktere. Diese "Goldfischgedächtnis"-Art von Krankheit ist ein tödlicher Fehler bei der Erstellung von Langzeitvideos in Bezug auf die Erzählung.

Jetzt haben Forscher aus der Universität von Hongkong und dem Kling-Team von Kuaishou eine bahnbrechende Lösung vorgestellt - MemFlow.

Dies ist ein innovativer strömungsadaptierter Gedächtnis-Mechanismus, der der AI ein starkes Langzeitgedächtnis und Erzählungskoherenz verleiht und das obige Problem möglicherweise komplett lösen kann.

Fließende Erzählung vs. starriges Gedächtnis

Um Langzeitvideos zu erstellen, verwenden die gängigen Modelle in der Regel die Strategie der "Blockgenerierung", d.h. sie generieren Videoclips Stück für Stück, wie beim Abspielen von Dias.

Allerdings ist es eine große technische Hürde, zu ermöglichen, dass die später generierten Clips die vorherigen Inhalte präzise "merken". Die bisherigen Lösungen lassen sich grob in mehrere Kategorien einteilen, aber alle haben deutliche Einschränkungen:

1. Die Strategie des "Nur-Anfang-Merken": Einige Modelle behalten nur den ersten Videoclip als Gedächtnis und beziehen sich bei allen nachfolgenden Generierungen darauf. Diese Methode funktioniert in einer einzigen Szene noch, aber sobald die Geschichte fortschreitet und neue Charaktere eingeführt oder in eine völlig neue Szene gewechselt werden muss, verfällt das Modell, da es diese neuen Informationen im "Gedächtnis" nicht hat, was zu Inkohärenz in Bezug auf das Visuelle und die Semantik zwischen den nachfolgenden Generierungen und den vorherigen Inhalten führt.

2. Die "Einheitsmaße"-Komprimierungsstrategie: Andere Methoden versuchen, alle historischen Bilder in ein "Gedächtnispaket" fester Größe zu komprimieren. Das Problem ist, dass unterschiedliche Erzählungsanforderungen unterschiedliche Schwerpunkte im Gedächtnis erfordern. Die "Einheitsmaße"-Komprimierung führt oft zum Verlust von Schlüsseldetails, was zur Vergessenheit von Hauptmerkmalen und zum Drift der visuellen Qualität führt.

3. Der "Selbständige"-Prozess: Es gibt auch einige Prozesse, die versuchen, die Aufgabe zu teilen. Zuerst lässt man ein Modell ein Storyboard erstellen und dann ein anderes Modell ein Video basierend auf dem Storyboard generieren. Bei dieser Methode sind die Generierungen für jedes Storyboardabschnitt unabhängig voneinander, und das zusammengesetzte vollständige Video fehlt an globaler Kohärenz.

Diese starren, nicht-adaptiven Gedächtnisstrategien können nicht auf die fließenden und unvorhersehbaren Erzählungsanforderungen bei interaktiver Kreativität reagieren, was der Grund für die schlechte Kohärenz bei der interaktiven Langzeitvideoerstellung ist.

Entstehung echter Langzeitgedächtnis und Erzählungskoherenz

MemFlow springt aus dem traditionellen Muster des Abhängens von starrem, festem Gedächtnis heraus und etabliert ein dynamisches, semantisch vermitteltes Gedächtnissystem, dessen Vorteile sich hauptsächlich in zwei Aspekten zeigen:

1. Langzeitgedächtnis: Aufrechterhaltung der visuellen Kohärenz in komplexen Szenen

MemFlow hat die Fähigkeit, die visuelle Erscheinung von Objekten langfristig zu speichern. Das bedeutet, dass es auch bei komplexen Situationen wie Szenenwechsel, Kamerawinkeländerung oder Einfügung oder vorübergehendem Verschwinden von Charakteren in einem Langzeitvideo die Kernvisuellen Merkmale jedes Subjekts behalten kann.

2. Erzählungskoherenz: Sicherstellung der klaren Entwicklung von Mehrfach-Subjekt-Geschichten

Es lernt das Denken eines Regisseurs und versteht die Handlung aus einer globalen Perspektive. Bei der Erzählung mit mehreren Subjekten führt MemFlow nicht versehentlich bereits vorhandene Charaktere erneut ein und macht auch keine "Gesichtsblindheit"-Fehler, bei denen Subjekte vermischt werden. Wenn der Benutzer ein neues Subjekt einführt und es anschließend beschreibt, kann MemFlow die Erzählung genau verstehen und fortsetzen, sodass die Geschichte reibungslos voranschreitet.

Adaptives, effizientes dynamisches Gedächtnis

Die Stärke von MemFlow beruht auf zwei Kernentwürfen:

Narrative Adaptives Gedächtnis (NAM): Bevor es einen neuen Clip generiert, sucht es intelligent die relevantesten visuellen Erinnerungen aus der Gedächtnisbank basierend auf den aktuellen Stichwörtern. Dadurch kann es immer die richtigen visuellen Referenzen finden, egal ob es alte Charaktere fortsetzt oder neue Interaktionen beschreibt, um die Kohärenz aufrechtzuerhalten. Dieser Entwurf ermöglicht es dem Modell, in einem begrenzten Gedächtniskapazität die mit der aktuellen Erzählung am relevantesten Informationen vorzuziehen, um ein Gleichgewicht zwischen Kohärenz und Rechenaufwand zu erreichen.

Sparse Memory Activation (SMA): Um die Effizienz zu wahren, aktiviert dieser Mechanismus nur die wichtigsten Informationen im Gedächtnis wie ein Scheinwerfer für die Berechnung. Dies vermeidet nicht nur die Verwirrung durch Informationsüberlastung, sondern verbessert auch die Generierungsgeschwindigkeit erheblich und erreicht Effizienz bei der Gewährleistung einer hochwertigen Erzählung.

Umfassende Validierung von quantitativen Daten bis hin zu qualitativen Vergleichen

Um die tatsächlichen Effekte von MemFlow zu bewerten, hat das Forschungs-Team eine Reihe von detaillierten qualitativen und quantitativen Experimenten durchgeführt, deren Ergebnisse deutlich die Leistung dieses Modells im Bereich der Langzeitvideoerstellung zeigen.

Quantitative Analyse: Signifikante Verbesserung der Schlüsselindikatoren

Bei der herausfordernden Aufgabe der "60-Sekunden-Langzeitvideoerstellung mit mehreren Stichwörtern" zeichnet sich MemFlow besonders durch seine Daten aus:

Ausgezeichnete Leistung bei der Gesamtsqualität und ästhetischen Bewertung:

Im Bewertungssystem von VBench-Long hat MemFlow sowohl in der Gesamtscore der Qualität (85.02) als auch in der Teilscore der Ästhetik (61.07) die höchsten Punkte aller verglichenen Modelle erreicht, was zeigt, dass die generierten Videos ein gutes Niveau in Bezug auf die visuelle Qualität und die ästhetische Präsentation haben.

Bestätigung der langfristigen semantischen Kohärenz:

Durch die Abschnittsweise Bewertung des Übereinstimmungsgrads zwischen Video und Text über die CLIP-Score kann man ein Schlüsselphänomen beobachten: In der zweiten Hälfte des Videos (z.B. 40 - 60 Sekunden) zeigt die Leistung vieler Modelle in Bezug auf die semantische Kohärenz aufgrund der Akkumulation von Fehlern einen deutlichen Rückgang, aber die Score von MemFlow kann auf einem hohen Niveau bleiben. Dies spiegelt die Wirksamkeit seines dynamischen Gedächtnis-Mechanismus bei der Aufrechterhaltung der langfristigen Erzählungskoherenz wider und hilft, das Problem des "Je weiter, desto ungeordneter" zu lindern.

Ausgezeichnete Kohärenzleistung:

Bei der Kohärenzbewertung, die die Kernfähigkeit misst, hat MemFlow eine hohe Punktzahl von 96.60 erreicht und liegt im Vergleich zu allen verglichenen Modellen an der Spitze. Dies zeigt direkt, dass MemFlow in Bezug auf Charaktere, Hintergrund oder Objekte in komplexen Erzählungsänderungen eine gute visuelle Einheitlichkeit aufrechterhalten kann.

Außerdem zeigen die Ergebnisse der Ablationsexperimente für verschiedene Gedächtnis-Mechanismen, dass die Strategie von MemFlow "Narrative Adaptives Gedächtnis + Sparse Activation (NAM + SMA)" im Vergleich zu den Lösungen des "Kein Gedächtnis" oder nur des "Ersten Abschnitt Merken (Frame Sink)" sowohl in Bezug auf die Subjekt-Kohärenz als auch die Hintergrund-Kohärenz verbessert hat und gleichzeitig eine höhere Effizienz als die Verwendung einer vollständigen Gedächtnisbank erreicht hat.

Qualitative Analyse: Visuelle Vergleiche zeigen die Vorteile des Modells direkt

Abgesehen von den Datenindikatoren zeigen die direkten visuellen Vergleiche die tatsächlichen Fähigkeiten des Modells deutlicher:

Vermeidung von Erzählungsverwirrung: In einer mehrfach-Szene, in der "eine Dame in einem bequemen Pullover" eingeführt wird, haben andere Modelle das Problem, dass die generierte Person nicht konsistent aussieht oder der Hauptcharakter immer wieder eingeführt wird, nachdem die Stichwörter gewechselt wurden. MemFlow hingegen hat erfolgreich die Figur der gleichen Dame in mehreren Szenen aufrechterhalten, ohne deutlichen Drift.

Präzise Charakterverfolgung und Wiedergabe: Die obigen Vergleichsbilder zeigen effektiv die Stabilität von MemFlow bei der Behandlung von Charakterinteraktionen. Ob es sich um Kinder und einen Hund, die am Strand spielen, oder um eine Familie, die ein Weihnachtsbaum schmückt, handelt, MemFlow kann sicherstellen, dass die Hauptcharaktere in der Geschichte in mehreren Videoclips konsistent bleiben. Im Vergleich dazu hat das Baseline-Modell LongLive nach dem Wechsel der Stichwörter überflüssige oder inkonsistente neue Charaktere eingeführt, was zu einer inkoherenten Erzählung führte. Andere Modelle haben schwerwiegenderen Qualitätsschwankungen und Subjektvergessenheit.

Zeige der Notwendigkeit des dynamischen Gedächtnisses: Bei den visuellen Vergleichen der Gedächtnis-Mechanismen hat die Version ohne Gedächtnis bei der Stichwortänderung einen deutlichen Szenenunterschied gezeigt. Die Lösung, die nur den ersten Abschnitt "merkt", kann die Merkmale von neu eingeführten Personen nicht aufrechterhalten. Nur MemFlow kann die Handlung glatt fortsetzen und die Subjekt-Kohärenz gewährleisten, was direkt die Wirksamkeit und Notwendigkeit seines dynamischen Gedächtnis-Mechanismus zeigt.

Effizienzbewertung

Die Experimentergebnisse zeigen: Bei der gleichen Aufgabe der Langzeitvideoerstellung mit mehreren Stichwörtern neigen traditionelle Modelle zu Subjektverschiebung und Charaktervermischung, während MemFlow eine bessere Erzählungskoherenz und visuelle Kohärenz aufrechterhalten kann.

Noch wichtiger ist, dass MemFlow auf einer einzelnen NVIDIA H100 eine Echtzeit-Inferenzgeschwindigkeit von FPS = 18.7 erreicht hat und im Vergleich zum Baseline-Modell ohne Gedächtnis minimale Leistungseinbußen hat. Es hat in Bezug auf mehrere Schlüsselindikatoren wie Kohärenz, ästhetische Bewertung und Textausrichtung das SOTA-Niveau erreicht.

Ein neues Zeitalter der Langzeitvideoerzählung eröffnen

MemFlow, gemeinsam von der Universität von Hongkong und dem Kling-Team von Kuaishou geschaffen, bringt die AI-Videoerstellungstechnologie durch seinen einzigartigen dynamischen Gedächtnis-Mechanismus von der "Clipzusammenfügung" auf eine neue Stufe der "Geschichtenerschaffung".

Es markiert die Transformation der AI von einem Maler, der nur "Konzeptvideos" erstellen kann, zu einem "Erzählungsregisseur", der komplexe Handlungen meistern und die Charakterkohärenz aufrechterhalten kann.

Eine Zeit der AI-Videoerstellung,