Das erste Instanz-Verständnis 3D-Rekonstruktionsmodell: NTU und Jieyue präsentieren 3D-Modell basierend auf Instanz-Dekopplung für Assistentenszenenverstehen

Im nächsten Schritt werden die Raumrekonstruktion und das instanzbezogene Kontextverständnis integriert.

Der Mensch kann die geometrische Struktur und die semantische Information der 3D-Welt auf natürliche Weise wahrnehmen. Für Künstliche Intelligenz (KI) ist es jedoch immer noch eine große Herausforderung, beides gleichzeitig zu erreichen.

Traditionelle Methoden behandeln die 3D-Rekonstruktion (untere geometrische Ebene) und das räumliche Verständnis (obere semantische Ebene) getrennt, was zu einer Akkumulation von Fehlern und einer fehlenden Generalisierbarkeit führt. Neuere Ansätze versuchen, 3D-Modelle mit bestimmten visuellen Sprachmodellen (VLM) zu verknüpfen, was nicht nur die Wahrnehmungsfähigkeit der Modelle einschränkt (z. B. die Unterscheidung zwischen zwei verschiedenen Instanzen derselben Klasse) sondern auch die Skalierbarkeit für anspruchsvollere nachgelagerte Aufgaben hemmt.

Jetzt hat die Nanyang Technological University (NTU) in Zusammenarbeit mit StepFun das IGGT (Instance-Grounded Geometry Transformer) vorgestellt, ein innovatives, end-to-end arbeitendes großes einheitliches Transformer-Modell, das erstmals die räumliche Rekonstruktion und das instanzbezogene Kontextverständnis integriert.

Um die oben genannten Probleme zu lösen, liegen die Hauptbeiträge dieser Studie in folgenden Punkten:

End-to-End-Einheitliches Framework:

Es wird das IGGT vorgeschlagen, ein großes einheitliches Transformer-Modell, das das Wissen über räumliche Rekonstruktion und instanzbezogenes Kontextverständnis in einem einzigen Modell für end-to-end-Training vereinigt.

Großes Instanzdatensatz:

Es wurde ein neues großes Datensatz InsScene-15K erstellt, der 15.000 Szenen, 200 Millionen Bilder und hochwertige, 3D-konsistente instanzbezogene Masken enthält, die über eine neuartige Datenpipeline annotiert wurden.

Instanzentkopplung und Plug-and-Play:

Es wird erstmals das Paradigma des "instanzbasierten Szenenverständnisses" (Instance-Grounded Scene Understanding) eingeführt. Das iGGT bindet sich nicht an ein bestimmtes VLM, sondern erzeugt instanzbezogene Masken als "Brücke", um es auf "Plug-and-Play"-Art und Weise nahtlos mit beliebigen VLMs (z. B. CLIP, OpenSeg) und LMMs (z. B. Qwen-VL 2.5) zu integrieren.

Unterstützung für mehrere Anwendungen: Diese einheitliche Darstellung erweitert die nachgelagerten Fähigkeiten erheblich und ist das erste einheitliche Modell, das gleichzeitig räumliche Verfolgung, offene Vokabularsegmentierung und Szenen-Fragen-Antworten (QA) unterstützt.

Erstellung des InsScene-15K-Datensatzes

Der InsScene-15K-Datensatz wurde über einen neuartigen Datenmanagementprozess erstellt, der von SAM2 angetrieben wird und Daten aus drei verschiedenen Quellen integriert, die jeweils unterschiedlich verarbeitet werden.

Abbildung 2

Synthetische Daten (Synthesis Data - z. B. Aria, Infinigen):

Dies ist der direkteste Ansatz. In einer simulierten Umgebung werden RGB-Bilder, Tiefenkarten, Kameraposen und objektbezogene Segmentierungsmasken gleichzeitig generiert. Da diese simulierten Masken "perfekt genau" sind, können sie ohne Nachbearbeitung direkt verwendet werden.

Videoaufnahmen aus der realen Welt (Video Captured - z. B. RE10K):

Dieser Prozess ist in Abbildung 2(a) dargestellt und ist eine maßgeschneiderte SAM2-Video-Dichtepredictionspipeline. Zunächst werden in Frame 0 des Videos mit SAM dichte anfängliche Maskenvorschläge (Initial Mask Proposals) erzeugt. Anschließend werden diese Masken mit dem SAM2-Videoobjektsegmentierer zeitlich vorwärts propagiert (Propagate Masks Forward). Um neu auftretende Objekte zu behandeln oder ein Driften zu vermeiden, fügt die Pipeline iterativ neue Schlüsselbilder hinzu: Wenn der nicht abgedeckte Bereich einen Schwellenwert überschreitet, wird SAM erneut auf dem neuen Frame ausgeführt, um neue Objekte zu entdecken. Abschließend wird eine bidirektionale Propagierung (Bi-directional Propagation) durchgeführt, um eine hohe zeitliche Konsistenz in der gesamten Videosequenz sicherzustellen.

RGBD-Aufnahmen aus der realen Welt (RGBD Captured - z. B. ScanNet++):

Dieser Prozess ist in Abbildung 2(b) dargestellt und ist eine Maskenoptimierungspipeline (Mask Refinement Pipeline). Die mitgelieferten 3D-Annotationen von ScanNet++ sind ungenau. Der Prozess projiziert zunächst diese 3D-Annotationen auf 2D-Bilder, um anfängliche GT-Masken mit konsistenten IDs zu erhalten. Gleichzeitig erzeugt SAM2 für dasselbe RGB-Bild formgenaue, aber ID-freie feingranulare Maskenvorschläge. Der Schlüssel-Schritt ist die Übereinstimmung und Fusion: Die feinen Masken, die von SAM2 erzeugt wurden, werden mit den projizierten groben GT-Masken ausgerichtet, um den feinen Masken die richtigen, multiview-konsistenten IDs zuzuweisen. Auf diese Weise verbessert die Pipeline die Qualität der 2D-Masken erheblich, indem sie sowohl die 3D-ID-Konsistenz als auch die Formgenauigkeit auf SAM2-Ebene beibehält.

Erstellung des IGGT-Modells

Übersicht über die IGGT-Architektur:

Die eingegebenen Bilder werden in eine einheitliche Token-Darstellung codiert und anschließend von einem Geometrie-Head (Geometry Head) und einem Instanz-Head (Instance Head) verarbeitet, um gleichzeitig eine hochwertige geometrische Rekonstruktion und instanzbezogene Clusterergebnisse zu generieren.

Die Architektur des IGGT besteht aus drei Schlüsselkomponenten:

Großes Einheitliches Transformer-Modell (Large Unified Transformer)

Dem VGGT folgend, extrahiert das Modell zunächst mit dem vortrainierten DINOv2 Bildblock-Tokens. Anschließend werden die Tokens der Multiview-Bilder durch 24 Attention-Module mit intra-view self-attention und global-view cross-attention in eine starke einheitliche Token-Darstellung Ti codiert.

Doppelter Dekoder-Head und Cross-Modal Fusion (Downstream Heads and Cross-Modal Fusion)

Die einheitlichen Tokens werden in zwei parallele Dekoder eingespeist:

Geometry Head: Erbt von VGGT und ist für die Vorhersage von Kameraparametern, Tiefenkarten und Punktwolken verantwortlich.
Instance Head: Verwendet eine DPT-ähnliche Architektur, um instanzbezogene Merkmale zu dekodieren.
Cross-Modal Fusion Block: Um dem Instanz-Head das Erkennen feiner geometrischer Grenzen zu ermöglichen, hat das Team einen Cross-Modal Fusion Block entworfen. Durch eine gleitende Fenster-Cross-Attention (sliding window cross attention) werden die räumlichen Strukturmerkmale des Geometrie-Heads effizient in die Instanzdarstellung eingebettet, was die räumliche Wahrnehmungsfähigkeit der instanzbezogenen Merkmale erheblich verbessert.

3D-konsistente kontrastive Überwachung (3D-Consistent Contrastive Supervision)

Um dem Modell zu ermöglichen, 3D-konsistente instanzbezogene Merkmale nur aus 2D-Eingaben zu lernen, hat das Team einen Mehrfach-Perspektiven-Kontrastverlust Lmvc entworfen. Die zentrale Idee dieses Verlusts ist es, in dem Merkmalsraum die Merkmale von Pixeln, die aus verschiedenen Perspektiven stammen, aber zur gleichen 3D-Instanz gehören, einander anzunähern und die Merkmale von verschiedenen Instanzen voneinander zu trennen.

Dabei sind m(pi) und m(pj) die Instanz-IDs der Pixel pi und pj, und fpi und fpj sind die entsprechenden instanzbezogenen Merkmale.

Instanzbasiertes Szenenverständnis

Die zentrale Idee besteht darin, die einheitliche Darstellung des 3D-Modells von den nachgelagerten speziellen Sprachmodellen (VLMs oder LMMs) zu entkoppeln.

Dies unterscheidet sich von früheren Ansätzen, die normalerweise 3D-Modelle mit bestimmten Sprachmodellen (z. B. LSeg) "eng verknüpfen" oder "zwingend ausrichten", was die Wahrnehmungsfähigkeit und die Skalierbarkeit der Modelle einschränkt. Zunächst werden die 3D-konsistenten instanzbezogenen Merkmale, die vom IGGT vorhergesagt werden, mit unüberwachter Clusterung (HDBSCAN) gruppiert, um die Szene in verschiedene Objektinstanzen zu segmentieren.

Diese Clusterergebnisse werden anschließend erneut projiziert, um 3D-konsistente 2D-Instanzmasken zu generieren. Diese Masken fungieren als "Brücke" für die "Plug-and-Play"-Integration mit verschiedenen VLMs (z. B. CLIP, OpenSeg) und LMMs (z. B. Qwen2.5-VL). Dieses Entkopplungs-Paradigma erweitert das Anwendungsgebiet des Modells erheblich:

Instanzräumliche Verfolgung (Instance Spatial Tracking): Mit den durch die Clusterung erzeugten 3D-konsistenten Masken können bestimmte Objektinstanzen in Bildern aus mehreren verschiedenen Perspektiven dicht verfolgt und segmentiert werden, ohne dass das Ziel leicht verloren geht, selbst wenn die Kamera stark bewegt wird.
Semantische Segmentierung mit offenem Vokabular (Open-Vocabulary Semantic Segmentation): Die Instanzmasken können als "Hinweise" (Prompts) an beliebige vorhandene VLM (z. B. OpenSeg) übergeben werden. Das VLM weist jeder von einer Maske definierten Region eine semantische Kategorie zu, um die Segmentierung mit offenem Vokabular zu ermöglichen.
QA-Szenenlokalisierung (QA Scene Grounding): Diese entkoppelte Instanzclusterung kann mit LMM (z. B. GPT-40 oder Qwen-VL 2.5) interagieren. Beispielsweise können die Masken derselben Instanz in mehreren Ansichten hervorgehoben werden, und dann kann an das LMM eine Frage gestellt werden, um komplexe auf Objekten basierende Fragen-Antwort-Aufgaben in der 3D-Szene auszuführen.

Empirische Ergebnisse

Im Vergleich zu bestehenden Methoden ist das IGGT das einzige Modell, das gleichzeitig die drei Aufgaben der Rekonstruktion, des Verständnisses und der Verfolgung bewältigen kann und die Metriken für Verständnis und Verfolgung erheblich verbessert.

Bei der Aufgabe der 3D-Instanzverfolgung erreicht das IGGT eine Verfolgungs-IOU und eine Erfolgsrate von 70 % und 90 % und ist das einzige Modell, das ein Objekt erfolgreich verfolgen kann, wenn es verschwindet und wieder erscheint.

Das IGGT wird mit SAM2 und SpaTracker+SAM verglichen. Zur besseren Übersicht werden alle Instanzen mit verschiedenen IDs und Farben visualisiert.

Das Team hat auch ausführliche Visualisierungsversuche für Szenen durchgeführt. Daraus geht hervor, dass das IGGT 3D-konsistente instanzbezogene Merkmale generieren kann, die in mehreren Ansichten unterscheidbar bleiben: Mehrere Instanzen derselben Klasse erscheinen im PCA-Raum in ähnlichen, aber unterscheidbaren Farben.

Die 3D-konsistenten PCA-Ergebnisse werden zusammen mit den instanzbezogenen Clusterungsmasken visualisiert. Ähnliche Farben in der PCA bedeuten eine höhere Merkmalsähnlichkeit zwischen den Instanzen. Bei den Clusterungsmasken teilt dieselbe Objektinstanz in mehreren Ansichten dieselbe Farbe.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das erste Instanz-Verständnis 3D-Rekonstruktionsmodell. NTU und Jieyue stellen ein 3D-Rekonstruktionsmodell basierend auf Instanz-Dekopplung vor, um die Assistentenszenenverstehen zu unterstützen.

Erstellung des InsScene-15K-Datensatzes

Erstellung des IGGT-Modells

Instanzbasiertes Szenenverständnis

Empirische Ergebnisse