StartseiteArtikel

Qunhe Technology hat ein großes Raummodell veröffentlicht, das darauf abzielt, die Schwierigkeiten bei der räumlichen Konsistenz von KI-Videos zu lösen.

Muqiu2025-08-29 11:45
Qunhe Technology hat SpatialLM 1.5 und SpatialGen veröffentlicht.

Am 25. August hat Qunhe Technology auf der ersten TechDay offiziell die neuesten Ergebnisse seines räumlichen Großen Modells vorgestellt: das neue Generation räumliche Sprachmodell SpatialLM 1.5 und das räumliche Generierungsmodell SpatialGen. Gleichzeitig wurde angekündigt, dass die Open-Source-Strategie fortgesetzt wird und das Modell schrittweise an globale Entwickler freigegeben wird.

Als ein Modellsystem, das sich auf die Erkennung und Generierung von 3D-Interieur-Szenen konzentriert, baut Qunhes räumliches Großer Modell seine technologischen Vorteile hauptsächlich in drei Richtungen auf: realistische holographische Rundgänge, strukturierte Interaktion und die Verarbeitung komplexer Interieur-Szenen.

 

Das in diesem Release vorgestellte SpatialLM 1.5 ist ein räumliches Sprachmodell, das auf der Grundlage eines Großen Sprachmodells trainiert wurde. Zhou Zihan, der Chefwissenschaftler von Qunhe Technology, erklärte in einem technischen Austausch, dass SpatialLM nicht einfach eine neue Modalität zu einem visuellen Sprachmodell (VLM) hinzufügt, sondern dass das Große Sprachmodell eine neue "räumliche Sprache" gelernt hat. Diese Sprache kann die räumliche Struktur, geometrische Informationen, die Beziehungen und physikalischen Parameter von Objekten in einer Szene in digitaler Textform präzise beschreiben.

Durch das Dialogsystem SpatialLM-Chat kann der Benutzer einfache Textbefehle eingeben, und das Modell kann automatisch ein strukturiertes 3D-Szenenskript mit physikalisch korrekten Informationen generieren und intelligent Möbel für die Layoutplanung auswählen. Das Modell kann auch über natürliche Sprache Szenen-Fragen beantworten und Szenen bearbeiten. Beispielsweise hat es in einer Live-Demo nicht nur das Objekt verstanden, sondern auch Werkzeuge aufgerufen, um automatisch einen Handlungsweg zu planen, als der Befehl "Gehe in die Wohnzimmerküche und hole Medikamente" eingegeben wurde. Dies zeigt sein Anwendungspotenzial in Roboterszenarien.

Huang Xiaohuang, Mitbegründer und Vorsitzender von Qunhe Technology, erwähnte in seiner Rede, dass ein großer Engpass in der gegenwärtigen Entwicklung der räumlichen Intelligenz die Knappheit dreidimensionaler interaktiver Daten ist, insbesondere die Schwierigkeit, die entsprechenden Interieur-Raum-Daten aus der physischen Welt zu erhalten. SpatialLM 1.5 kann schnell und in Massen eine große Anzahl an vielfältigen Szenen generieren, die direkt für die Schulung von Robotern in Bezug auf Pfadplanung, Hindernisvermeidung und Aufgabenausführung verwendet werden können. Dies bietet eine effektive Lösung für das Problem des Mangels an Trainingsdaten für Roboter.

Im Gegensatz zu SpatialLM, das sich auf "Verständnis und Interaktion" konzentriert, fokussiert sich das SpatialGen-Modell auf "Generierung und Präsentation". Es ist ein Mehrfach-Perspektiven-Bildgenerierungsmodell basierend auf einer Diffusionsmodell-Architektur, das auf der Grundlage von Texten, Referenzbildern und 3D-Raum-Layouts zeitlich und räumlich konsistente Mehrfach-Perspektiven-Bilder generieren kann.

Long Tianze, der Leiter des AI-Produkts von Qunhe Technology, wies darauf hin, dass die derzeitigen gängigen AI-Video-Generierungs-Tools auf dem Lernen von 2D-Bildsequenzen basieren und ein echtes Verständnis für 3D-Räume und physikalische Regeln fehlt. Daher treten häufig räumliche Logikfehler wie Verschiebungen von Objektpositionen, chaotische Hintergründe und Modelle, die sich durch andere Modelle hindurchschieben, auf, wenn die Perspektive gewechselt oder komplexe Bewegungen ausgeführt werden.

SpatialGen kann Mehrfach-Perspektiven-Bilder generieren, bei denen die räumlichen Attribute und physikalischen Beziehungen in verschiedenen Aufnahmen konsistent bleiben, und kann weiter 3D-Gauss-Szenen (3DGS) generieren und schließlich ein Video rendern, in dem der Benutzer frei herumschauen kann. Dieses Konzept zielt darauf ab, das Problem der zeitlichen und räumlichen Konsistenz in der gegenwärtigen AIGC-Video-Generierung grundlegend zu lösen. Long Tianze gab bekannt, dass das Unternehmen derzeit ein AI-Video-Generierungsprodukt entwickelt, das 3D-Fähigkeiten tief integriert, und dass das Produkt voraussichtlich innerhalb dieses Jahres veröffentlicht wird.

Huang Xiaohuang hat vor Ort die strategische Planung für die räumliche Intelligenz von Qunhe Technology geteilt. Der Kern davon ist ein räumlicher Intelligenz-Flywheel, der aus "räumlichen Bearbeitungstools - räumlichen synthetischen Daten - räumlichen Großen Modellen" besteht. Durch die breite Anwendung von Tools wie CoolHome werden riesige Mengen an Daten gesammelt. Diese Daten werden dann genutzt, um das Modelltraining zu beschleunigen. Anschließend verbessert die starke Modellfähigkeit wiederum die Benutzererfahrung der Tools, wodurch ein positiver Zyklus entsteht. Bis zum 30. Juni 2025 hat Qunhe Technology über 441 Millionen 3D-Modelle und über 500 Millionen strukturierte 3D-Raum-Szenen.

Huang Xiaohuang sagte, dass Open Source ein wichtiger Bestandteil der Strategie von Qunhe Technology ist. Das Unternehmen hat seit 2018 begonnen, schrittweise Daten und Algorithmen freizugeben. Er glaubt, dass das räumliche Große Modell derzeit noch in der Anfangsphase ist und hofft, dass durch die Open-Source-Strategie gemeinsam mit globalen Entwicklern der "Kuchen" größer gemacht werden kann und die Technologie schnell voranschreiten kann.

Es ist bekannt, dass die beiden in diesem Release vorgestellten Modelle nacheinander auf Plattformen wie Hugging Face, GitHub und ModelScope Community als Open Source veröffentlicht werden. SpatialGen war bereits auf der TechDay zum Download verfügbar, und SpatialLM 1.5 wird in Zukunft auch in Form von "SpatialLM-Chat" als Open Source veröffentlicht werden.