StartseiteArtikel

Die Nachwuchsgeneration ist zu fürchten. Das neue Ergebnis des Teams von He Kaiming wurde veröffentlicht. Einer der ersten Autoren ist ein zweiter Semesterstudent der Yao Class der Tsinghua-Universität.

量子位2025-12-04 10:18
Das Ein-Schritt-Generierungsmodell zeigt erneut seine Stärke.

Nach der Vorstellung von MeanFlow (MF) im vergangenen Mai hat das Team um Kai - Ming He kürzlich eine neueste verbesserte Version vorgestellt:

Improved MeanFlow (iMF). iMF hat erfolgreich drei zentrale Probleme des ursprünglichen MF in Bezug auf Trainingsstabilität, Führungsflexibilität und Architektureffizienz gelöst.

Durch die Umformulierung des Trainingsziels als stabilere Momentangeschwindigkeitsverlustfunktion und die Einführung einer flexiblen klassifikatorlosen Führung (CFG) sowie einer effizienten in - Kontext - Konditionierung hat es die Modellleistung erheblich verbessert.

Im ImageNet 256x256 - Benchmark hat das iMF - XL/2 - Modell in der 1 - NFE (Einzelschritt - Funktionsauswertung) einen FID - Wert von 1,72 erreicht, was eine Verbesserung von 50 % gegenüber dem ursprünglichen MF darstellt und beweist, dass ein von Grund auf trainiertes Einzelschritt - Generierungsmodell Ergebnisse erzielen kann, die mit denen von Mehrschritt - Diffusionsmodellen vergleichbar sind.

Der erste Autor von MeanFlow, Zhengyang Geng, bleibt derselbe. Bemerkenswerterweise ist der Mitautor Yiyang Lu derzeit noch ein Student im zweiten Jahrgang - aus der Yao - Klasse der Tsinghua Universität, und Kai - Ming He hat sich ebenfalls am Ende unterschrieben.

Weitere Mitwirkende umfassen: Der Adobe - Forscher Zongze Wu, Eli Shechtman und der Direktor der Machine - Learning - Abteilung der CMU, Zico Kolter.

Neuformulierung der Vorhersagefunktion und Rückkehr zu einem Standard - Regressionsproblem

Die Kernverbesserung von iMF (Improved MeanFlow) besteht darin, durch die Neuformulierung der Vorhersagefunktion den Trainingsvorgang in ein Standard - Regressionsproblem zu verwandeln.

Im ursprünglichen MeanFlow (MF) (links in der obigen Abbildung) minimiert es direkt den Verlust der durchschnittlichen Geschwindigkeit. Dabei ist Utgt die Ziel - durchschnittliche Geschwindigkeit, die aus der MeanFlow - Identität und der bedingten Geschwindigkeit e - x abgeleitet wird.

Das Problem hierbei ist, dass der abgeleitete Zielwert Utgt Ableitungsglieder der Netzwerkvorhersage enthält, und diese "Selbstabhängigkeit des Ziels" macht die Optimierung äußerst instabil und mit hoher Varianz.

Basierend auf diesem Problem baut iMF den Verlust auf der Grundlage der Momentangeschwindigkeit auf, wodurch der gesamte Trainingsvorgang stabil wird.

Es ist zu beachten, dass die Netzwerkausgabe immer noch die durchschnittliche Geschwindigkeit ist, während der Trainingsverlust zum Momentangeschwindigkeitsverlust wird, um ein stabiles, standardmäßiges RegressionsTraining zu erhalten.

Es vereinfacht zunächst die Eingabe auf eine einzige verrauschte Datenmenge z und modifiziert geschickt die Berechnung der Vorhersagefunktion intern.

Genauer gesagt, lässt iMF bei der Berechnung der zusammengesetzten Vorhersagefunktion V (die die Vorhersage der Momentangeschwindigkeit repräsentiert) den Tangentenvektor, der für den Jacobi - Vektorprodukt (JVP) - Term erforderlich ist, nicht mehr von außen als e - x stammen, sondern von der vom Netzwerk selbst vorhergesagten Randgeschwindigkeit.

Durch diese Schritte hat iMF erfolgreich die Abhängigkeit der zusammengesetzten Vorhersagefunktion V von der Zielnäherung e - x entfernt. Dann setzt iMF das Ziel der Verlustfunktion auf die stabile bedingte Geschwindigkeit e - x.

Schließlich hat iMF den Trainingsablauf erfolgreich in ein stabiles, standardmäßiges Regressionsproblem verwandelt und eine solide Optimierungsgrundlage für das Lernen der durchschnittlichen Geschwindigkeit geschaffen.

Neben der Verbesserung des Trainingsziels hat iMF auch durch die folgenden beiden Durchbrüche die Anwendbarkeit und Effizienz des MeanFlow - Frameworks insgesamt verbessert:

Flexible klassifikatorlose Führung (CFG).

Einschränkung des ursprünglichen MeanFlow - Frameworks ist, dass zur Unterstützung der Einzelschrittgenerierung die Führungsgröße der klassifikatorlosen Führung (CFG) während des Trainings festgelegt werden muss, was die Fähigkeit, die Bildqualität oder - Vielfalt durch Anpassung der Größe bei der Inferenz zu optimieren, stark einschränkt.

iMF löst dieses Problem, indem es die Führungsgröße als ein lernbares Kriterium integriert.

Genauer gesagt, gibt iMF die Führungsgröße direkt als Eingabekriterium an das Netzwerk weiter.

Während der Trainingsphase sampelt das Modell zufällig verschiedene Führungsgrößen aus einer Potenzverteilung, die eher kleinere Werte bevorzugt. Diese Vorgehensweise ermöglicht es dem Netzwerk, die durchschnittlichen Geschwindigkeitsfelder bei verschiedenen Führungsstärken anzupassen und zu lernen, wodurch die volle Flexibilität der CFG bei der Inferenz freigesetzt wird.

Darüber hinaus hat iMF diese flexible Konditionierung auch auf die Unterstützung von CFG - Intervallen erweitert, um die Kontrolle des Modells über die Stichprobenvielfalt weiter zu verbessern.

Effiziente in - Kontext - Konditionierungsarchitektur (In - context Conditioning)

Das ursprüngliche MF ist auf den adaLN - zero - Mechanismus mit einer großen Anzahl von Parametern angewiesen, um verschiedene heterogene Bedingungen (wie Zeitschritte, Klassenlabels und Führungsgrößen) zu verarbeiten.

Wenn die Anzahl der Bedingungen zunimmt, wird die einfache Summierung aller Bedingungsembeddings und die Weitergabe an den adaLN - zero - Mechanismus ineffizient und führt zu redundantem Parametern. iMF löst dieses Problem, indem es eine verbesserte in - Kontext - Konditionierung einführt.

Der Innovationspunkt besteht darin, dass es alle Bedingungen (einschließlich Zeitschritte, Klassen und CFG - Faktoren) in mehrere lernbare Token codiert und diese Bedingungstoken direkt entlang der Sequenzachse mit den Tokens des Bildlatentraums zusammenfügt und dann gemeinsam in einen Transformer - Block eingibt, um sie gemeinsam zu verarbeiten.

Der größte Vorteil dieser Architekturänderung ist, dass iMF den adaLN - zero - Block mit einer großen Anzahl von Parametern vollständig entfernen kann.

Damit hat iMF bei Verbesserung der Leistung auch die Modellgröße erheblich optimiert. Beispielsweise ist die Größe des iMF - Base - Modells um etwa 1/3 (von 133M auf 89M) reduziert, was die Effizienz und Designflexibilität des Modells erheblich verbessert.

Experimentelle Ergebnisse

iMF hat auf der herausforderndsten ImageNet 256x256 - Aufgabe in der 1 - NFE eine hervorragende Leistung gezeigt.

Der FID - Wert von iMF - XL/2 in der 1 - NFE hat 1,72 erreicht und die Leistung von Einzelschritt - Generierungsmodellen auf ein neues Niveau gebracht.

Die Leistung von iMF, das von Grund auf trainiert wurde, ist sogar besser als die vieler Schnellvorwärts - Modelle, die aus vorgespeicherten Mehrschrittmodellen distilliert wurden, was die Überlegenheit des iMF - Frameworks bei der Grundausbildung beweist.

Die folgende Abbildung zeigt die Ergebnisse der 1 - NFE (Einzelschritt - Funktionsauswertung) auf ImageNet 256x256.

Der FID - Wert von iMF in der 2 - NFE hat 1,54 erreicht und die Lücke zwischen Einzelschrittmodellen und Mehrschritt - Diffusionsmodellen (FID etwa 1,4 - 1,7) weiter geschlossen.

One more thing

Wie bereits erwähnt, ist der erste Autor von IMF derselbe Kernteammitglied wie bei der Vorgängerarbeit Mean Flow (eingereicht für NeurIPS 2025 Oral) - Zhengyang Geng.

Er hat seinen Bachelor an der Sichuan Universität abgeschlossen und studiert derzeit für einen Doktor an der CMU unter der Leitung von Professor Zico Kolter.

Der Mitautor ist Yiyang Lu, ein Student im zweiten Jahrgang der Yao - Klasse der Tsinghua Universität. Derzeit forscht er an der MIT unter der Leitung von Professor Kai - Ming He in der Computervision und hat zuvor unter der Leitung von Professor Huazhe Xu am Tsinghua Institute of Interdisciplinary Information Sciences in der Robotik geforscht.

Ein Teil dieses Papers wurde von ihnen während ihres Aufenthalts an der MIT unter der Leitung von Professor Kai - Ming He fertiggestellt.

Weitere Autoren des Papers sind: Der Adobe - Forscher Zongze Wu, Eli Shechtman, der Direktor der Machine - Learning - Abteilung der CMU, J. Z