Eine Nacht reicht, um die Sora-Mythologie zu durchbrechen. Mit einer einzelnen H200-Grafikkarte können Bilder in nur 5 Sekunden generiert werden. Ein vollständig chinesisches Team löst mit einer Open-Source-KI einen Rummel in der Videoszene aus.
Ein einzelnes H200 kann in nur 5 Sekunden ein 5-sekündiges Video generieren.
Kürzlich haben die drei Institute UCSD, UC Berkeley und MBZUAI zusammengearbeitet und das FastWan-System von Videogenerierungsmodellen vorgestellt.
Link zur Publikation: https://arxiv.org/pdf/2505.13389
Es nutzt ein neues Trainingsschema namens "Sparse Distillation" und erreicht dadurch eine effiziente Generierung. Die Geschwindigkeit der Videodenoisierung steigt um das 70-fache.
Basierend auf der FastVideo-Architektur kann das FastWan2.1-1.3B-Modell auf einem einzelnen H200 in nur 1 Sekunde die Denoisierung durchführen und in 5 Sekunden ein 480p-Video von 5 Sekunden Länge generieren.
Auf einer RTX 4090 dauert die Generierung eines Videos 21 Sekunden, wobei die Denoisierung 2,8 Sekunden in Anspruch nimmt.
Wenn nur die Verarbeitungszeit von DiT berücksichtigt wird
Das verbesserte FastWan2.2-5B-Modell kann auf einem einzelnen H200 in nur 16 Sekunden ein 720P-Video von 5 Sekunden Länge generieren.
Die Gewichte des FastWan-Modells, das Trainingsschema und der Datensatz sind vollständig Open Source.
Jetzt ist es endlich möglich, Echtzeitvideos mit KI zu generieren.
Sparse Distillation: KI-Videos treten in den Supergeschwindigkeitsmodus
Was genau ist "Sparse Distillation", das es dem Modell ermöglicht, Videos so schnell zu generieren?
Seit langem sind Videodiffusionsmodelle der Mainstream im Bereich der KI-Videogenerierung. Beispielsweise verwendet Sora eine Kombination aus Diffusionsmodell und Transformer-Architektur.
Obwohl diese Modelle sehr leistungsstark sind, stoßen sie auf zwei langfristige Engpässe:
1. Bei der Videogenerierung sind eine enorme Anzahl von Denoisierungsschritten erforderlich.
2. Bei der Verarbeitung langer Sequenzen entstehen quadratische Rechenkosten für die Attention-Mechanismen. Dies ist insbesondere bei Videos in hoher Auflösung ein Problem.
Nehmen wir das Wan2.1-14B-Modell als Beispiel. Das Modell muss 50 Diffusionsschritte ausführen, und für die Generierung eines 5-sekündigen 720P-Videos müssen über 80.000 Token verarbeitet werden. Dabei verbrauchen die Attention-Operationen sogar über 85 % der Inferenzzeit.
Genau hier kommt "Sparse Distillation" ins Spiel.
Als Kerninnovation von FastWan ermöglicht es erstmals die gemeinsame Optimierung von Sparse Attention und Schritt-Distillation in einem einheitlichen Rahmen.
Im Wesentlichen beantwortet es die grundlegende Frage: Kann man bei extremer Kompression der Diffusionsschritte, z. B. von 50 auf 3 Schritte, die Beschleunigungsvorteile der Sparse Attention beibehalten?
Frühere Studien hatten dies für nicht möglich gehalten, aber die neueste Publikation hat diese Meinung mit der "Video Sparse Attention" (VSA) geändert.
Warum versagt die herkömmliche Sparse Attention bei der Distillation?
Aktuelle Methoden wie STA und SVG basieren auf der Redundanz bei der Mehrschritt-Denoisierung, um die Attention-Maps zu trimmen. Normalerweise werden nur die späteren Denoisierungsschritte vereinfacht.
Aber wenn die Distillation die 50 Schritte auf 1 - 4 Schritte komprimiert, verschwindet die Redundanz vollständig.
Experimente haben gezeigt, dass die Leistung der herkömmlichen Methoden drastisch abnimmt, wenn weniger als 10 Schritte verwendet werden - obwohl die Sparse Attention selbst eine 3-fache Beschleunigung bringt, kann die Distillation eine Verbesserung um das 20-fache oder mehr erreichen.
Um die Sparse Attention wirklich produktiv nutzbar zu machen, muss sie mit der Distillationstraining kompatibel sein.
Die Video Sparse Attention (VSA) ist der Kernalgorithmus für die dynamische Sparse Attention. Sie kann selbständig die Schlüssel-Token in einer Sequenz identifizieren.
Im Gegensatz zu Ansätzen, die auf heuristischen Regeln basieren, kann VSA während des Trainings direkt FlashAttention ersetzen. Sie lernt über Daten die optimale Sparse-Muster und behält gleichzeitig die Generierungsqualität so gut wie möglich bei.
Während der Schritt-Distillation, wenn das Studentenmodell lernt, mit weniger Schritten zu denoisieren, ist VSA nicht auf die Redundanz der Mehrschritt-Denoisierung angewiesen, um die Attention-Maps zu trimmen. Stattdessen kann sie sich dynamisch an neue Sparse-Muster anpassen.
Dadurch ist VSA das erste Sparse-Attention-Mechanismus, das vollständig kompatibel mit der Distillationstraining ist. Tatsächlich haben sie sogar die gleichzeitige Optimierung von VSA und Distillation erreicht!
Nachdem das Team weiß, ist dies ein großer Durchbruch im Bereich der Sparse Attention.
Drei Komponenten, vollständige Kompatibilität
Basierend auf der Video Sparse Attention (VSA) -Technologie hat das Team eine innovative Methode namens Sparse Distillation entwickelt.
Dies ist eine Post-Training-Technik für Modelle, die die Sparse Attention-Training mit der Schritt-Distillation kombiniert.
Der Kerngedanke besteht darin, dass ein "Studentenmodell" mit weniger Schritten und Sparse Attention lernt, die Ausgabeverteilung eines "Lehrermodells" mit vollständigen Schritten und Dense Computation zu matchen.
Wie in der folgenden Abbildung gezeigt, umfasst der Gesamtrahmen dieser Technik die folgenden Schlüsselkomponenten:
Sparse Studentennetzwerk (angetrieben von VSA, trainierbar)
Echtzeit-Bewertungsnetzwerk (eingefroren, vollständige Attention)
Pseudo-Bewertungsnetzwerk (trainierbar, vollständige Attention)
Alle drei Komponenten werden auf Basis des Wan2.1-Modells initialisiert.
Während des Trainings erhält das Sparse Studentennetzwerk ein verrauschtes Video als Eingabe und führt über VSA einen einzelnen Denoisierungsschritt aus, um die Ausgabe zu generieren.
Diese Ausgabe wird erneut verrauscht und anschließend in die beiden vollständigen Attention-Bewertungsnetzwerke eingegeben - diese führen jeweils eine vollständige Attention-Denoisierung durch.
Die Differenz zwischen den Ausgaben der beiden Zweige bildet den Gradienten für die Verteilungsmatching. Über die Rückwärtsverarbeitung wird das Studentennetzwerk optimiert. Gleichzeitig wird das Pseudo-Bewertungsnetzwerk basierend auf dem Diffusionsverlust der Studentenausgabe aktualisiert.
Das Geniale an dieser Architektur liegt darin: Das Studentenmodell nutzt VSA, um die Rechenleistung zu gewährleisten, während die beiden Bewertungsnetzwerke die vollständige Attention beibehalten, um eine hohe Genauigkeit der Trainingsüberwachung sicherzustellen.
Das Geniale an dieser Architektur liegt darin: Diese Design löst die Kopplung zwischen der Laufzeitbeschleunigung (Studentenmodell) und der Distillationsqualität (Bewertungsnetzwerke) auf, sodass die Sparse Attention mit aggressiven Strategien zur Schrittreduzierung kompatibel ist.
Allgemeiner gesagt, da die Sparse Attention nur auf das Studentenmodell angewendet wird, ist dieses Verfahren mit verschiedenen Distillationsmethoden kompatibel, einschließlich Konsistenz-Distillation, Progressiver Distillation oder GAN-basierter Distillationsverluste.
Wie wird die Distillation in FastWan implementiert?
Hohe Qualität der Daten ist für jedes Trainingsschema von entscheidender Bedeutung, insbesondere für Diffusionsmodelle. Deshalb haben die Forscher entschieden, einen synthetischen Datensatz mit dem hochwertigen Wan-Modell selbst zu generieren.
Genauer gesagt, werden mit dem Wan2.1-T2V-14B-Modell 600.000 480P-Videos und 250.000 720P-Videos generiert, und mit dem Wan2.2-TI2V-5B-Modell werden 32.000 Videos generiert.
Bei der Sparse Distillation mit DMD müssen drei riesige Modelle mit jeweils 14 Milliarden Parametern gleichzeitig im GPU-Speicher geladen werden:
· Studentenmodell
· Trainierbares Pseudo-Score-Modell
· Eingefrorenes Echt-Score-Modell
Zwei dieser Modelle (Studentenmodell und Pseudo-Score-Modell) müssen kontinuierlich trainiert werden. Dabei müssen sowohl der Zustand des Optimierers als auch die Gradienten gespeichert werden. Hinzu kommt die lange Sequenzlänge, was die Speichereffizienz zu einer entscheidenden Herausforderung macht.
Um dieses Problem zu lösen, haben sie die folgenden Schlüssel-Lösungen vorgeschlagen:
1. Durch FSDP2 werden die Parameter der drei Modelle über mehrere GPUs aufgeteilt, was die Speicherauslastung erheblich reduziert.
2. Die Aktivierungs-Checkpoint-Technik wird angewendet, um den hohen Aktivierungsspeicherbedarf bei langen Sequenzen zu verringern.
3. Die Gradientenberechnung wird fein gesteuert, um die Gradientenberechnung in verschiedenen Phasen der Distillation (z. B. beim Aktualisieren des Studentenmodells/Pseudo-Score-Modells) zu optimieren.
4. Die Gradientenakkumulation wird eingeführt, um die effektive Batch-Größe bei begrenzter GPU-Speicherkapazität zu erhöhen.
Die Sparse Distillation des Wan2.1-T2V-1.3B-Modells wird auf 64 H200 GPUs über 4000 Schritte durchgeführt, was insgesamt 768 GPU-Stunden kostet.
Mit einer Karte, Videos in Sekundenschnelle generieren
Bei den Skalierungsexperimenten hat das Forschungsteam ein VideodiT-Modell mit 410 Millionen Parametern vorgespeichert, wobei die latente Raumdimension (16, 32, 32) beträgt.
Bei einer Sparsität von 87,5 % erreicht VSA einen Verlust, der fast identisch mit dem der vollständigen Attention ist.
Gleichzeitig reduziert sie die FLOPS der Attention-Berechnung um das 8-fache und die end-to-end-Trainings-FLOPS um das 2,53-fache.
Die Skalierung von 60 Millionen auf 1,4 Milliarden Parameter bestätigt, dass VSA immer eine bessere "Pareto-Front" als die vollständige Attention erreichen kann.
Um die praktische Wirkung von VSA zu evaluieren, hat das Team das Wan-1.3B-Modell auf dem synthetischen Datensatz im Videolatenraum (16×28×52), der von Wan-14B generiert wurde, mit VSA feinjustiert.
Wie in Tabelle 2 gezeigt, übertrifft das Modell mit VSA sogar das ursprüngliche Wan-1.3B im VBench-Score.
Unter extremen Sparsitätsbedingungen, im Vergleich zur trainingsfreien Attention-Sparsifizierungsmethode SVG, zeigt VSA eine bessere Leistung, obwohl die Sparsität höher ist. Dies bestätigt die Effektivität der