Elefanten verwandeln sich augenblicklich in Bagger: Neuer Durchbruch bei der dreidimensionalen Transformation ohne zusätzliche Schulung
【Einführung】Nanjing-Universität und Peking-Universität haben MorphAny3D vorgeschlagen, das es ermöglicht, dass 3D-Generierungsmodelle ohne Training glatte Übergänge zwischen verschiedenen Kategorien realisieren können. Durch einen innovativen Attention-Mechanismus, der die Merkmale der Quelle und des Ziels kombiniert, kann die Struktur und die Zeitreihe präzise kontrolliert werden, so dass komplexe Transformationen problemlos durchgeführt werden können. Die Ergebnisse übertreffen bei weitem die traditionellen Methoden.
Die 3D-Transformation zielt darauf ab, einen glatten Übergang von einem Quellobjekt zu einem Zielobjekt zu erreichen. Obwohl 2D-Bildgenerierungsmodelle die Bildtransformationstechnologie erheblich vorangetrieben haben, stehen 3D-Transformationen aufgrund der Komplexität ihrer räumlichen Struktur immer noch vor folgenden Engpässen:
(1) Das Problem der Kreuzkategorieanpassung: Traditionelle 3D-Transformationsmethoden, die auf Anpassung basieren, sind stark von einer dichten Korrespondenz zwischen Quelle und Ziel abhängig. Bei der Verarbeitung von Objekten aus verschiedenen Kategorien (z. B. "Elefant zu Bagger") versagt diese Anpassungsmechanik oft, was zu Strukturverzerrungen oder sogar einem Kollaps während der Transformation führt, wie in Abbildung 1-(a) gezeigt.
(2) Fehlende Zeitreihenkonsistenz: Ein anderer intuitiver Ansatz besteht darin, zunächst eine Sequenz mit 2D-Transformationen zu generieren und dann über ein 3D-Generierungsmodell in die dritte Dimension zu "hochzuheben". Dieser Ansatz fehlt jedoch an Interframe-Beschränkungen, so dass es schwierig ist, die Zeitreihenkonsistenz der Transformation zu gewährleisten, wie in Abbildung 1-(b) gezeigt.
Abbildung 1: Qualitative Vergleichsabbildung verschiedener Transformationsschemata. ist das Transformationsgewicht zur Kontrolle des Transformationsfortschritts.
Derzeit machen in der 3D-Generierungstechnik rasante Fortschritte. Insbesondere hat Trellis[1] durch die Kodierung von 3D-Assets in strukturierte latente Variablen (Structured Latent, SLAT) die Fähigkeit zur Generierung von hochwertigen und vielfältigen 3D-Bildern erreicht.
Dies führt zu der Frage: Kann SLAT in die 3D-Transformation eingeführt werden, um das starke 3D-Generierungsprior zu nutzen?
MorphAny3D basiert auf dieser Motivation. Durch die eingehende Erforschung der Fusionierungsregeln von SLAT im Attention-Mechanismus wurden eine Reihe von effizienten Komponenten ohne Training entwickelt, die glatte und vernünftige 3D-Transformationen zwischen verschiedenen Kategorien ermöglichen.
Um dieses Problem zu lösen, hat Xiaokun Sun aus dem PCA-Lab der Nanjing-Universität unter der Leitung von Assistentprofessor Zhenyu Zhang in seiner neuesten Arbeit für die CVPR 2026 das trainingsfreie 3D-Transformationsframework MorphAny3D vorgeschlagen.
Projektseite: https://xiaokunsun.github.io/MorphAny3D.github.io
Link zur Studie: https://arxiv.org/pdf/2601.00204
Link zum Code: https://github.com/XiaokunSun/MorphAny3D
Diese Methode kombiniert geschickt die Merkmale des Quellobjekts und des Zielobjekts im Attention-Mechanismus eines großen 3D-Generierungsmodells, wodurch das Potenzial des 3D-Generierungspriors in der Transformationsdomäne aktiviert wird und hochwertige 3D-Transformationen zwischen verschiedenen Kategorien realisiert werden.
Darüber hinaus verfügt MorphAny3D über eine starke Generalisierungsfähigkeit. Es unterstützt verschiedene Anwendungen wie entkoppelte Transformationen, Zwei-Ziel-Transformationen und 3D-Stylisierung und kann nahtlos auf 3D-Generierungsmodelle mit ähnlichen Architekturen übertragen werden. Der Code ist jetzt open source!
MorphAny3D
Abbildung 2: Rahmenbild von MorphAny3D.
Abbildung 2-(a) zeigt das Framework von MorphAny3D. Basierend auf den beobachteten SLAT-Fusionierungsregeln in den Cross-/Self-Attention-Modulen hat der Autor das Morphing Cross-Attention-Modul (Morphing Cross-Attention, MCA, Abbildung 2-(b)) und das Temporal-Fused Self-Attention-Modul (Temporal-Fused Self-Attention, TFSA, Abbildung 2-(c)) eingeführt, um die Rationalität und Zeitreihen-Kohärenz der Transformation zu verbessern. Darüber hinaus hat der Autor eine Orientierungskorrekturstrategie (Orientation Correction, OC, Abbildung 2-(d)) vorgeschlagen, die auf einer statistischen Analyse der Orientierungsverteilung der Trellis-Generierungsergebnisse basiert und darauf abzielt, plötzliche Orientierungssprünge zu unterdrücken.
Abbildung 3: Quantitative Vergleichsabbildung verschiedener Transformationsschemata.
Die Fusionierungsregeln von SLAT im Attention-Mechanismus
Zu Beginn der Forschung hat der Autor den direktesten Fusionierungsansatz versucht: die direkte Interpolation der Bildbedingungen (Image Conditions) und des initialen Rauschens des Quellobjekts und des Zielobjekts. Wie in Abbildung 1-(c) zu sehen ist, war das Ergebnis dieser Strategie nicht ideal. Dies wird auch durch die quantitativen Indizes FID [2] (je niedriger, desto besser die Rationalität) und PPL [3] (je niedriger, desto besser die Glattheit) in Abbildung 3 bestätigt.
Um eine bessere Lösung zu finden, hat der Autor versucht, die Attention-Key-Value-Fusionierungsstrategie, die in früheren Transformationsarbeiten [3, 4] erfolgreich getestet wurde, auf SLAT zu übertragen. Diese Strategie wird wie folgt ausgedrückt:
Dabei repräsentiert die Abfrage (Query) des -ten Frames der Transformation, und sind die Schlüssel (Key) und Werte (Value) aus dem Quellobjekt und dem Zielobjekt, und ist das Transformationsgewicht zur Kontrolle des Transformationsfortschritts. Im Cross-Attention-Modul stammen die Schlüssel und Werte aus den bildgebenden Bedingungen, die die Generierung leiten. Im Self-Attention-Modul stammen die Schlüssel und Werte aus den latenten Merkmalen selbst.
Der Autor hat die Effekte der Fusion nur im Cross-Attention-Modul (KV-Fused CA), nur im Self-Attention-Modul (KV-Fused SA) und der gleichzeitigen Anwendung beider verglichen (siehe Abbildung 1-(d, e, f) und Abbildung 3) und folgende Schlussfolgerungen gezogen:
- KV-Fused CA kann die strukturelle und semantische Rationalität der 3D-Transformation erheblich verbessern, indem es die semantischen 2D-Bedingungen im Cross-Attention-Modul fusioniert (es erreicht den niedrigsten FID), aber es tritt leicht eine lokale missgestaltete Struktur wie in Abbildung 1-(d) gezeigt auf.
- KV-Fused SA kann die Glattheit und Kontinuität der Sequenz effektiv verbessern, indem es die 3D-latenten Merkmale im Self-Attention-Modul aggregiert (es erreicht den niedrigsten PPL).
- Wenn jedoch beide Strategien gleichzeitig angewendet werden, stört KV-Fused SA die strukturelle Rationalität, die von KV-Fused CA gebracht wird. Es kann nicht das erwartete Ergebnis von 1+1>2 erreichen.
Daraus ist ersichtlich, dass im Vergleich zur einfachen Merkmalsinterpolation die tiefere Key-Value-Fusion zwar das Potenzial von SLAT in der Transformationsdomäne zunächst freisetzt, aber für eine wirklich kontinuierliche und vernünftige Kreuzkategorie-Transformation sind weitere Verbesserungen erforderlich.
Deshalb hat der Autor auf der Grundlage der Attention-Key-Value-Fusion gezielte Änderungen vorgenommen, um das Leistungspotenzial von SLAT vollständig freizusetzen.
Morphing Cross-Attention-Modul (Morphing Cross-Attention, MCA)
Wie bereits erwähnt, hat KV-Fused CA zwar die strukturelle Rationalität der Transformation verbessert, aber es hat unvermeidlich lokale Artefakte eingeführt. Der Autor vermutet, dass die Wurzel des Problems in der semantischen Verwirrung liegt, die bei der "patchweisen" Merkmalsfusion der Quell- und Zielbilder entsteht. Genauer gesagt stammen die Schlüssel (Key) und Werte (Value) im Cross-Attention-Modul aus patchweisen DINOv2-Merkmalen. Die Merkmale der Quell- und Zielbilder, die im Raum ausgerichtet sind, haben jedoch nicht unbedingt dieselbe Semantik. Diese direkte gewichtete Summierung führt oft dazu, dass das Generierungsmodell widersprüchliche semantische Leitinformationen erhält, was schließlich zu verzerrten Strukturen führt. Um diese Vermutung zu bestätigen, hat der Autor die Attention-Karten der obersten SLAT (markiert mit einem roten Stern) unter verschiedenen Mechanismen analysiert, wie in Abbildung 4 gezeigt.
Abbildung 4: Attention-Karten unter verschiedenen Cross-Attention-Mechanismen. Der rote Stern markiert die oberste SLAT, der rosa rote Stern markiert die entsprechende obere Bildbedingung. Der orangefarbene Rahmen hebt die fehlerhaften Attention-Fokusse von KV-Fused CA hervor. MCA behält die richtigen, semantisch konsistenten Attention-Fokusse bei und vermeidet so die lokalen verzerrten Strukturen von KV-Fused CA, wie in Abbildung 2-(d) gezeigt.
Beim Betrachten der zweiten und dritten Spalte von Abbildung 4 kann man feststellen, dass die ursprüngliche Cross-Attention bei der Verarbeitung der obersten SLAT präzise auf die entsprechende Bildbedingung (markiert mit einem roten Stern) fokusiert, was beweist, dass es die Fähigkeit hat, eine semantische Korrespondenz zwischen 2D-Bedingungen und 3D-latenten Merkmalen implizit herzustellen. Die vierte Spalte von KV-Fused CA fokussiert jedoch fehlerhaft auf den Hintergrundbereich (siehe orangefarbenen Rahmen), was dazu führt, dass die semantisch inkompatiblen Merkmale den Generierungsprozess irregeführt haben und schließlich zu lokalen Verzerrungen geführt haben.
Deshalb hat der Autor das Morphing Cross-Attention-Modul (Morphing Cross-Attention, MCA) vorgeschlagen. Im Gegensatz zu KV-Fused CA, das die Schlüssel und Werte vorab fusioniert, wendet MCA die Strategie "zuerst unabhängig berechnen, dann gewichtet fusionieren und ausgeben" an:
Wie in der letzten Spalte von Abbildung 4 gezeigt, behält MCA durch die unabhängige Verarbeitung der Quell- und Zielmerkmale die genaue Aufmerksamkeit auf semantisch konsistente Bereiche bei und vermeidet so die Artefakte, die bei KV-Fused CA beobachtet wurden. Obwohl die Änderung von MCA nur die Reihenfolge der Berechnung und Fusion zu ändern scheint, liegt ihr Kernwert darin: Es erbt die Eigenschaft "präzises Fokussieren" des ursprünglichen Attention-Mechanismus und gewährleistet die semantische Konsistenz der Bedingungsmerkmale, was eine einfache und effiziente Lösung für hochwertige 3D-Kreuzkategorie-Transformationen bietet.
Temporal-Fused Self-Attention-Modul (Temporal-Fused Self-Attention, TFSA)
Obwohl MCA die strukturelle und semantische Rationalität gewährleistet, gibt es immer noch Raum für Verbesserungen bei der Glattheit der Transformationssequenz, da es keine explizite Zeitreihenabhängigkeit zwischen den Frames gibt.
Deshalb hat der Autor das Temporal-Fused Self-Attention-Modul (Temporal-Fused Self-Attention, TFSA) vorgeschlagen.
Im Gegensatz zu KV-Fused SA, das die Schlüssel und Werte direkt vor der Attention-Berechnung fusioniert, wendet TFSA eine rückwärts gerichtete Zeitreihen-Beschränkungsstrategie an. Beim Generieren des -ten Frames fusioniert TFSA die Attention-Ausgaben der