Interaktive 3D-Modelle aus einem einzigen Bild rekonstruieren: Nanyang Technische Universität öffnet Struktur-Inferenz-Framework ohne Bedarf an mehreren Perspektiven

MonoArt: Generierung bewegbarer 3D-Modelle aus einzelnen Bildern, progressive Inferenz zur Verbesserung der Interaktivität.

Machen Sie 3D-Modelle „lebendig“! Ein Team der Nanyang Technological University hat MonoArt vorgeschlagen, um bewegliche 3D-Modelle aus einem einzelnen Bild zu generieren, indem es schrittweise inferiert. Diese Methode rekonstruiert zunächst die Geometrie, erkennt dann die Bauteile und schließt schließlich die Bewegungsart und -parameter. Ohne externe Daten oder Apriori-Wissen kann eine 3D-Darstellung mit Bewegungsfähigkeit erstellt werden, was die Stabilität und Praktikabilität der Rekonstruktion effektiv verbessert.

Im Bereich der 3D-Generierung sind wir es inzwischen gewohnt, 3D-Objektmodelle aus einem einzelnen Bild zu generieren.

Mit dem Aufstieg der Embodied AI (eingebettete Künstliche Intelligenz) steht jedoch eine neue Realität vor den Forschern: Die meisten dieser Modelle sind statische Assets, mit denen es schwierig ist, zu interagieren.

Möchten Sie die Tür des generierten Kühlschranks öffnen? Sie ist festgeschweißt. Möchten Sie den Roboter dazu bringen, den generierten Stuhl zu bewegen? Er weiß nicht, wo er gefaltet werden kann.

Kürzlich hat ein Forschungsunternehmen aus dem S-Lab der Nanyang Technological University MonoArt vorgeschlagen, um dieses Problem effizient zu lösen: Anstatt es dem Modell zu überlassen, direkt zu „raten“, wie sich ein Objekt bewegt, sollte es zunächst schrittweise die Struktur des Objekts „verstehen“.

Der Kerngedanke von MonoArt kann in einem Satz zusammengefasst werden: Die monokulare Rekonstruktion beweglicher Objekte wird als ein progressiver struktureller Inferenzprozess (progressive structural reasoning) modelliert.

In diesem Rahmen gibt das Modell nicht auf einmal die Artikulation aus, sondern führt nacheinander Geometrierekonstruktion, Bauteilerkennung, Bewegungsinferenz und Schätzung der kinematischen Parameter durch, um schließlich eine 3D-Darstellung zu erhalten, die sowohl die Form als auch die Bauteilhierarchie und Gelenkinformationen enthält.

Link zur Studie: https://arxiv.org/abs/2603.19231

Link zum Projekt: https://lihaitian.com/MonoArt/

Link zu GitHub: https://github.com/Quest4Science/MonoArt

Einführung

Im Gegensatz zur statischen 3D-Rekonstruktion muss die artikulierte 3D-Rekonstruktion nicht nur die Form des Objekts rekonstruieren, sondern auch die Bauteilaufteilung, den Gelenktyp, die Bewegungsachse, das Rotationszentrum und den Bewegungsbereich modellieren. Die Schwierigkeit dieser Aufgabe liegt nicht nur darin, dass mehr Parameter vorhergesagt werden müssen, sondern auch darin, dass Struktur und Bewegung gekoppelt sind: Wenn man nicht weiß, wie die beweglichen Bauteile aufgeteilt sind, ist es schwierig, ihre Bewegung abzuleiten; umgekehrt ist es schwierig, die Struktur der beweglichen Bauteile wirklich zu modellieren, wenn man die Bewegungsbeziehungen nicht versteht. Aus diesem Grund ist die direkte Regression der Artikulation aus Bildmerkmalen oft instabil und hat eine begrenzte Generalisierbarkeit.

Die bestehenden Methoden lassen sich grob in drei Kategorien einteilen:

Methoden basierend auf Mehrfachansichten oder Videos: Diese Methoden setzen auf Beobachtungen desselben Objekts in verschiedenen Öffnungs- und Schließzuständen. Obwohl sie gute Ergebnisse liefern, haben sie hohe Anforderungen an die Datenbedingungen, die in der realen Welt oft nicht erfüllt werden können.
Methoden basierend auf Suche und Montage: Diese Methoden bauen bewegliche Objekte aus bestehenden Asset-Bibliotheken zusammen. Sie sind jedoch oft auf die in der Bibliothek vorhandenen Formen beschränkt, was zu geometrischen Fehlern und Texturinkompatibilitäten führt.
Methoden basierend auf zusätzlichem Apriori-Wissen: Diese Methoden nutzen visuelle Sprachmodelle, Hilfsvideoerzeugung oder vordefinierte Bewegungsrichtungen, um die Artikulation abzuleiten. Obwohl sie die Abhängigkeit von Mehrfachansichtsdaten verringern, sind die Systeme komplexer, stärker von externem Apriori-Wissen abhängig und erfordern in der Regel längere Inferenzzeiten.

Allen diesen Methoden ist ein gemeinsames Problem eigen: Sie setzen die strukturelle Verständnis nicht wirklich als Ausgangspunkt für die Artikulationsinferenz.

Entweder verlassen sie sich auf mehr Beobachtungen, um Informationen zu ergänzen, oder auf externes Apriori-Wissen, um Hinweise zu erhalten. Aber sie beantworten nicht die wesentlichere Frage: Kann ein bewegliches Objekt in einem einzelnen Bild zunächst in eine stabile geometrische und Bauteilstruktur zerlegt werden, bevor die Bewegungsbeziehungen daraus abgeleitet werden?

MonoArt wurde genau für die Lösung dieses Problems entwickelt. Anstatt die Artikulation als ein direktes Regressionsergebnis zu betrachten, modelliert es die monokulare Rekonstruktion beweglicher Objekte als einen progressiven strukturellen Inferenzprozess, indem es Geometrie, Bauteilstruktur und Bewegung in eine kontinuierliche Inferenzkette einbezieht, sodass die Bewegung ein natürliches Ergebnis des strukturellen Verständnisses wird.

Methodendesign

Genauer gesagt besteht MonoArt aus vier Schlüsselmodulen, um die schrittweise Inferenz von Bild → Geometrierekonstruktion → Bauteilerkennung → Bewegungsinferenz → Schätzung der kinematischen Parameter zu realisieren.

Schritt 1: Ein zuverlässiges 3D-Modell

Alles beginnt mit der Rekonstruktion der dreidimensionalen Geometrie eines Objekts aus einem einzelnen Bild. MonoArt verwendet TRELLIS als gefrorenes 3D-Generierungs-Grundgerüst, um ein kanonisches Netz und damit ausgerichtete latente Merkmale auszugeben. Der Sinn dieses Schritts besteht darin, dass alle nachfolgenden Inferenzen über „Bauteile“ und „Bewegung“ im dreidimensionalen Raum statt im zweidimensionalen Bild stattfinden – dies ist viel stabiler als die direkte Regression der Gelenkparameter aus Pixelmerkmalen.

Schritt 2: Kenntnis der beweglichen Bauteile

Nachdem wir die 3D-Form haben, stellt sich die nächste Frage: Welche Teile dieser Form sind beweglich? Die Tür und der Korpus eines Schrankes sind zwei verschiedene Bauteile, aber das Netz sagt uns das nicht. Die Aufgabe des Part-Aware Semantic Reasoner besteht darin, dass das Modell die Bauteilstruktur „versteht“.

Es projiziert die geometrischen Merkmale jeder Oberflächenpunkt auf drei orthogonale Ebenen (Triplane) und erfasst dann die globale Strukturbeziehung über einen Transformer, um schließlich für jeden Punkt eine Einbettung zu generieren, die Informationen über die Bauteilzugehörigkeit enthält.

Beim Training wird der Abstand zwischen den Merkmalen verschiedener Bauteile durch den Triplet-Verlust vergrößert, sodass die Punkte desselben Bauteils zusammengehalten werden und die Punkte verschiedener Bauteile voneinander entfernt sind.

Die folgende Visualisierung zeigt sehr anschaulich die Wirkung dieses Schritts: Ohne dieses Modul ist es für die Punktmerkmale schwierig, Bauteile in Bezug auf die Bewegungsebene zu unterscheiden (zweite Spalte); nach Hinzufügen des Moduls und der Triplet-Überwachung können die Merkmale verschiedener Bauteile gut unterschieden werden (letzte Spalte).

Schritt 3: Ableitung der Bewegung jedes Bauteils

Nachdem die Bauteilaufteilung bekannt ist, muss die Bewegung abgeleitet werden. Hier gibt es jedoch eine subtil schwierige Stelle: Um die Bewegung eines Bauteils zu beschreiben, müssen zwei verschiedene Arten von Fragen beantwortet werden – was es „ist“ (Semantik: Ist dies eine Tür oder eine Schublade?) und wo seine Bewegung „stattfindet“ (Raum: Wo ist das Rotationszentrum?).

Wenn diese beiden Arten von Informationen in derselben Repräsentation end-to-end regressiert werden, ist dies oft instabil. Der Dual-Query Motion Decoder von MonoArt verwendet ein entkoppeltes Design: Der Content-Query kodiert die Bauteilsemantik, und der Position-Query kodiert die räumlichen Bewegungsanker. Beide werden durch sechs Iterationen der Verfeinerung schrittweise ausgerichtet.

In jeder Iteration modelliert die Self-Attention die Beziehungen zwischen den Bauteilen, und die Cross-Attention extrahiert Beweise aus den Punktmerkmalen. Diese parallele iterative Methode, die „gleichzeitig herausfindet, was es ist und wo es ist“, macht die Bewegungsinferenz stabiler.

Schritt 4: Ausgabe physikalisch nutzbarer kinematischer Parameter

Schließlich wandelt der Kinematic Estimator die vorherigen Inferenzergebnisse in klare, physikalisch interpretierbare Ausgaben um: die Maske jedes Bauteils, den Gelenktyp (fest, rotierend, translatorisch usw.), die Richtung der Rotationsachse, die Position des Rotationszentrums und die oberen und unteren Grenzen des Bewegungsbereichs.

Darüber hinaus prognostiziert er auch die Eltern-Kind-Beziehungen zwischen den Bauteilen und baut einen vollständigen kinematischen Baum auf – das heißt, „an welchem Bauteil ist welches Bauteil befestigt“.

Ein bemerkenswertes Design Detail ist, dass die Vorhersage der Gelenkposition in Form eines Residuums erfolgt, wobei der Position-Query (d. h. der Schwerpunkt des Bauteils) aus dem vorherigen Schritt als Ankerpunkt dient und nur die Verschiebung vorhergesagt wird. Ablationsversuche zeigen, dass dies genauer ist als die direkte Regression der absoluten Koordinaten – dies entspricht auch der „progressiven“ Designphilosophie des gesamten Rahmens: Jeder Schritt baut auf dem vorherigen Schritt auf.

Dieser schrittweise Aufbau bringt einen direkten Vorteil: Die gesamte Artikulationsinferenz erfordert kein externes Apriori-Wissen – keine Mehrfachansichten, keine Asset-Bibliothek, kein VLM, keine Hilfsvideoerzeugung. Wie gut ist es dann tatsächlich?

Experimentelle Ergebnisse

Im PartNet-Mobility-Benchmark hat MonoArt in beiden Einstellungen (7 Klassen und 46 Klassen) eine führende Leistung gezeigt.

Im Vergleich zu repräsentativen Methoden wie SINGAPO, URDFormer, Articulate-Anything und PhysXAnything hat MonoArt in mehreren Kernindikatoren wie der Qualität der geometrischen Rekonstruktion, der Vorhersage des Gelenktyps und der Schätzung der wichtigen Bewegungs-parameter die besten Ergebnisse erzielt und gleichzeitig eine höhere Inferenz-effizienz erreicht.

Im Vergleich zu 229,9 s bei Articulate-Anything und 256,8 s bei PhysXAnything benötigt MonoArt nur 20,5 s (wobei 18,2 s für die 3D-Rekonstruktion mit TRELLIS aufgewendet werden und die Artikulationsinferenz selbst nur etwa 2 s zusätzlichen Aufwand verursacht).

Darüber hinaus können die von MonoArt generierten 3D-Objekte in der Simulationsausbildung von Roboterarmen verwendet werden. Die von MonoArt rekonstruierten Objekte können direkt in IsaacSim importiert werden, um den Franka-Roboterarm zum Greifen und Öffnen von Türen zu veranlassen, ohne dass zusätzliche Gelenkannotationen erforderlich sind.

MonoArt kann auch auf die Generierung von Szenen mit beweglichen Bauteilen erweitert werden.

Einschränkungen und Überlegungen

MonoArt bietet eine klare neue Richtung für die monokulare artikulierte 3D-Rekonstruktion: Anstatt sich immer stärker auf externes Apriori-Wissen zu verlassen, um die Bewegung „zu ergänzen“, lernt das Modell durch progressiven strukturellen Inferenzprozess wirklich, warum ein Objekt so aufgebaut ist und warum es sich so bewegen kann.

Allerdings kann die gleichmäßige Stichprobenahme für sehr kleine Bauteile mit stark unterschiedlicher Skala dazu führen, dass die Merkmale nicht deutlich genug sind; für sehr neue Topologien oder seltene Muster kann die Vorhersage der Bewegungs-parameter des Modells auch abnehmen. Diese Probleme lassen Raum für zukünftige Arbeiten.

Referenzen

[1] TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. CVPR 2025.

[2] URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images. RSS 2024.

[3] SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects. ICLR 2025.

[4] Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model. ICLR 2025.

[5] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image. CVPR 2026.

[6] DreamArt: Generating Interactable Articulated Objects from a Single Image. SIGGRAPH Asia 2025.

[7] Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics. ICCV 2025.

[8] PARIS: Part-level Reconstruction and Motion Analysis for Articulated Objects. ICCV 2023.

[9] ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting. CVPR 2025.

[10] PhysX-3D: Physical-Grounded 3D Asset Generation. NeurIPS 2025.

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Autor: LRST, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ohne die Notwendigkeit mehrerer Perspektiven: Interaktive 3D-Modelle können aus einem einzigen Bild rekonstruiert werden. Nanyang Technische Universität öffnet das Struktur-Inferenz-Framework.

Einführung

Methodendesign

Experimentelle Ergebnisse

Einschränkungen und Überlegungen

Referenzen