Neues Werk des Teams von He Kaiming: Diffusionsmodelle werden möglicherweise falsch eingesetzt.
He Kaiming kehrt erneut zur Einfachheit zurück.
Die neueste Studie widerlegt direkt die herrschende Vorgehensweise bei Diffusionsmodellen – statt das Rauschen vorherzusagen, zeichnet das Modell direkt saubere Bilder.
Wenn Sie sich mit He Kaimings Arbeiten auskennen, werden Sie feststellen, dass dies sein typischer Weg der Innovation ist. Er schlägt keine komplizierteren Architekturen vor, sondern zerlegt das Problem in seine ursprünglichen Bestandteile und lässt das Modell das tun, was es am besten kann.
Tatsächlich sind Diffusionsmodelle seit Jahren populär, und ihre Architekturen werden immer komplexer, wie z. B. die Vorhersage von Rauschen, die Vorhersage von Geschwindigkeiten, die Anpassung von Latenträumen, das Sammeln von Tokenizern, das Hinzufügen von VAE und das Hinzufügen von perceptuellen Verlusten …
Aber es scheint, dass die Leute vergessen haben, dass Diffusionsmodelle ursprünglich Entrauschungsmodelle sind.
Jetzt bringt diese neue Studie das Thema wieder auf den Tisch. Wenn es sich um ein "Denoising"-Modell handelt, warum nicht direkt entrauschen?
Also liefert He Kaimings Team nach ResNet, MAE usw. erneut ein Ergebnis, das der Weisheit "Die höchste Kunst ist die Einfachheit" entspricht: Diffusionsmodelle sollten zurückkehren zu ihrer ursprünglichen Form – die direkte Vorhersage von Bildern.
Diffusionsmodelle werden möglicherweise falsch angewendet
Bei den gegenwärtigen herrschenden Diffusionsmodellen, obwohl der Entwurfskonzept und der Name "Entrauschung" besagen, dass das Ziel bei der Trainingsphase des neuronalen Netzwerks oft nicht das saubere Bild, sondern Rauschen oder ein Geschwindigkeitsfeld, das aus einem Gemisch von Bild und Rauschen besteht, ist.
Tatsächlich ist der Unterschied zwischen der Vorhersage von Rauschen und der Vorhersage von sauberen Bildern sehr groß.
Nach der Manifold-Hypothese sind natürliche Bilder auf einem niedrigdimensionalen Manifold im hochdimensionalen Pixelraum verteilt und es handelt sich um saubere Daten mit einem Muster; während Rauschen gleichmäßig über den gesamten hochdimensionalen Raum verteilt ist und keine solche niedrigdimensionale Struktur aufweist.
Einfach ausgedrückt: Stellen Sie sich den hochdimensionalen Pixelraum als ein riesiges 3D-Zimmer vor, und die sauberen natürlichen Bilder befinden sich tatsächlich alle auf einem 2D-Bildschirm im Zimmer. Dies ist die Manifold-Hypothese – natürliche Daten scheinen hochdimensional zu sein, sind aber tatsächlich auf einem niedrigdimensionalen "Flächenstück (Manifold)" konzentriert.
Aber Rauschen ist anders. Es ist wie Schneeflocken, die sich im gesamten 3D-Zimmer verteilen und nicht auf dem Bildschirm liegen; und das Geschwindigkeitsfeld ist ebenfalls so, es ist halb auf dem Bildschirm und halb außerhalb des Bildschirms und verletzt ebenfalls die Regeln des "Manifolds".
Dies führt zu einem Kernwiderspruch. Bei der Verarbeitung von hochdimensionalen Daten, z. B. wenn Bilder in 16x16 oder sogar 32x32 große Patches aufgeteilt werden, erfordert es eine enorme Modellkapazität, um alle Informationen zu speichern, wenn das neuronale Netzwerk angewiesen wird, unregelmäßiges hochdimensionales Rauschen anzupassen. Dies kann leicht dazu führen, dass das Modelltraining zusammenbricht.
Im Gegensatz dazu, wenn das Netzwerk direkt saubere Bilder vorhersagen soll, bedeutet dies im Wesentlichen, dass das Netzwerk lernt, wie es Rauschen auf das niedrigdimensionale Manifold projiziert. Dies erfordert viel weniger Netzwerkkapazität und entspricht eher der ursprünglichen Idee des neuronalen Netzwerks, "Rauschen zu filtern und Signale zu behalten".
Also schlägt dieser Artikel eine äußerst einfache Architektur JiT – Just image Transformers – vor.
Wie der Name schon sagt, ist dies ein reiner Transformer für die Bildverarbeitung und seine Entwurf ist sehr einfach. Es wird nicht wie bei den üblichen Diffusionsmodellen ein VAE verwendet, um den Latentraum zu komprimieren, es wird auch kein Tokenizer entworfen, es ist keine Anpassung von vortrainierten Merkmalen wie CLIP oder DINO erforderlich und es wird kein zusätzlicher Verlustfunktion benötigt.
Anfangen direkt von Pixeln und ein reiner Transformer für die Entrauschung verwenden.
JiT ist wie ein Standard-ViT. Es teilt die ursprünglichen Pixel in große Patches (die Dimension kann bis zu 3072 oder sogar höher sein) auf und gibt sie direkt ein. Die einzige Änderung besteht darin, dass das Ausgabenziel auf die direkte Vorhersage von sauberen Bildpatches festgelegt wird.
Die Experimentergebnisse zeigen, dass im niedrigdimensionalen Raum die Leistung der Vorhersage von Rauschen und der Vorhersage von Originalbildern sich kaum unterscheidet. Aber sobald man in den hochdimensionalen Raum gelangt, bricht das herkömmliche Rauschvorhersagemodell völlig zusammen, der FID-Index (je niedriger desto besser) steigt exponentiell an, während JiT, das direkt Originalbilder vorhersagt, immer noch stabil bleibt.
Die Skalierbarkeit des Modells ist auch ausgezeichnet. Selbst wenn die Patch - Größe auf 64x64 erweitert wird, so dass die Eingabedimension auf mehr als zehntausend Dimensionen steigt, kann eine hochwertige Generierung erreicht werden, solange die Vorhersage von Originalbildern beibehalten wird, ohne die Netzwerkbreite zu erhöhen.
Das Team hat sogar festgestellt, dass das künstliche Einführen einer Bottleneck-Schicht an der Eingabe zur Dimensionsreduktion nicht nur nicht zum Versagen des Modells führt, sondern aufgrund der Übereinstimmung mit der Essenz der Manifold - Lernmethode, Rauschen zu filtern, die Generierungsqualität weiter verbessert.
Diese äußerst einfache Architektur erreicht auf ImageNet 256x256 und 512x512 SOTA - FID - Werte von 1,82 und 1,78, ohne auf komplexe Komponenten oder Vortraining angewiesen zu sein.
Autoreneinführung
Der erste Autor dieser Studie ist Li Tianhong, einer der ersten Schüler von He Kaiming. Er hat seinen Bachelor - Abschluss an der Yao - Klasse der Tsinghua - Universität gemacht und nach dem Erhalt von Master - und Doktor - Titeln an der MIT derzeit eine Postdoc - Forschung in He Kaimings Gruppe durchgeführt.
Seine Hauptforschungsschwerpunkte sind Repräsentationslernen, Generative Modelle und die Wechselwirkung zwischen beiden. Sein Ziel ist es, intelligente visuelle Systeme zu entwickeln, die die Welt jenseits der menschlichen Wahrnehmung verstehen können.
Er hat zuvor als erster Autor zusammen mit He Kaiming den selbstbedingten Bildgenerierungsrahmen RCG entwickelt und hat auch an mehreren neuesten Studien des Teams teilgenommen.
Man kann auch sagen, dass dies ein Wissenschaftler ist, der sich für südchinesische Küche aus der Provinz Hunan begeistert, und er hat sogar seine Rezepte auf seiner Homepage veröffentlicht.
Link zur Studie: https://arxiv.org/abs/2511.13720
Dieser Artikel stammt aus dem WeChat - Account "Quantum Bit". Autor: Wen Le. Veröffentlicht von 36Kr mit Genehmigung.