Moushen Intelligence veröffentlicht neues dreidimensionales Weltmodell HL3DWM: Lässt Roboter reale Welt verstehen!

Moushen Intelligence hat das menschenähnliche 3D-Modell HL3DWM vorgeschlagen, das die räumliche Kognition des Menschen imitiert und die Leistung von Embodied Intelligence-Aufgaben verbessert.

Stellen Sie sich vor, wenn Sie in einen fremden Raum gehen, wie würden Sie nach der Fernbedienung suchen?

Als Menschen greifen wir auf unsere Lebenserfahrungen zurück und versuchen schnell zu erinnern, dass "die Fernbedienung normalerweise neben dem Fernseher oder auf dem Sofa liegt". Dann gehen wir in diesen Bereich, schauen uns um und ignorieren andere Gegenstände wie Wasserbecher und Taschentuchboxen, die in unser Blickfeld kommen, bis wir schließlich das Ziel finden.

In der komplexen 3D-Welt ist dieses menschliche Instinktvermögen der "präzisen Ortung und bedarfsgerechten Suche" genau die Kernfähigkeit, die das embodied AI dringend benötigt, um sich zu verallgemeinern.

Das globale, neuartige dreidimensionale Weltmodell HL3DWM basierend auf menschlichem Denken

Kürzlich hat das Forschungsteam von Mou Shen Intelligence in Zusammenarbeit mit Fudan Universität und der Shanghai Chuangzhi Akademie basierend auf menschlichen Verhaltensmustern ein neues menschähnliches 3D-Weltmodell (HL3DWM) innovativ vorgeschlagen. Das Team hat auf der natürlichen Logik des menschlichen Verständnisses der 3D-Welt aufgebaut und einen neuen Weg für das Verständnis von 3D-Szenen eröffnet, der der realen Weltwahrnehmung näher kommt. Dadurch wird die embodied AI-Technologie von der Spitzenforschung zur massenhaften industriellen Anwendung gebracht.

HL3DWM ist wie ein intelligenter Assistent mit "räumlichem Gedächtnis". Sein Kernprinzip ist die Nachahmung der Art und Weise, wie Menschen die 3D-Welt verstehen - zuerst den relevanten Bereich suchen, dann die umgebenden Informationen zusammenfassen und schließlich die Aufgabe erfüllen. Durch die selbst entwickelten Module "Objektperzeptives Bildsuchen" und "Umgebungsperzeptives Informationsaggregieren" kombiniert HL3DWM die globale räumliche Beziehung, die von der 3D-Punktwolke bereitgestellt wird, mit den feinen Details der Bilder, sodass das Large Language Model genaue Antworten oder Lösungen für Aufgaben geben kann und komplexe Aufgaben erfolgreich bewältigen kann.

Aktuelle Forschungsschmerzpunkte: 3D-Large Language Modelle haben Schwierigkeiten, Globalität und Details zu vereinbaren

In den letzten Jahren haben die multimodalen Large Language Modelle (MLLMs) im Bereich der 2D-Bilder große Erfolge erzielt. Die Forscher wünschen sich natürlich, diese Fähigkeiten auf die reale 3D-Welt zu übertragen und embodied Agenten wie Roboter die Fähigkeit zu verleihen, den physischen Raum zu verstehen. Die Verbesserung der 3D-Raumverstehensfähigkeit der Modelle ist derzeit ein wichtiges Forschungsthema.

Allerdings stehen die derzeitigen führenden 3D multimodalen Large Language Modelle bei komplexen 3D-Aufgaben oft vor einer dilemma-Situation: Einerseits kann die Punktwolke zwar genaue 3D-Koordinaten liefern, aber die direkte Extraktion von Merkmalen aus der Punktwolke führt leicht zum Verlust von Bilddetails. Einige Objekte können auch nur schwer durch die Punktwolke repräsentiert werden. Beispielsweise können kleine Objekte in der Punktwolke nicht klar erkannt werden. Andererseits kann das Modell möglicherweise Schwierigkeiten haben, die 3D-Rauminformationen, insbesondere die globale räumliche Beziehung, ausreichend zu modellieren, nachdem die 2D-Bildmerkmale in den 3D-Raum abgebildet wurden. Beispielsweise hat das Large Language Model Schwierigkeiten, die räumliche Lagebeziehung zwischen zwei Bildern ohne Überlappungsbereich ausreichend zu verstehen.

Die Lösung von HL3DWM: Nachahmung der Art und Weise, wie Menschen die 3D-Welt verstehen, und Integration der multimodalen Kerninformationen

Wenn Menschen Aufgaben in der 3D-Welt erfüllen, können sie leicht die globale Information und die relevanten Details zusammenfassen. Nehmen wir das Beispiel des "Kochens": Menschen gehen zuerst basierend auf der Aufgabe und ihrem Gedächtnis in die Küche, beobachten dann die Umgebung, sammeln die Informationen über die Küchenutensilien und Zutaten und bestimmen schließlich das Gericht und die Art des Kochens. Dieser Prozess kann in drei Schritte zusammengefasst werden: Zuerst verstehen und die entsprechende Position suchen. Nach der Empfangnahme des Befehls können Menschen die relevanten Informationen aus der Aufgabe extrahieren und dann in Verbindung mit ihrem Gedächtnis den relevanten Bereich für die Aufgabe lokalisieren, um mehr Informationen zu sammeln. Zweitens die Informationsaggregation. Nachdem der Zielort gefunden wurde, werden die aufgabenrelevanten Informationen über die Objekte und die Umgebung zusammengefasst. Schließlich die Aufgabe ausführen. Die gesammelten Informationen werden genutzt, um die Aufgabe zu erfüllen.

Es ist bemerkenswert, dass HL3DWM (Human-Like 3D World Model) eine Architektur verwendet, die die menschlichen Erkennungsgewohnheiten und das Weltverständnis nachahmt. Das Gesamtframework ist in Abbildung 2 unten zu sehen.

Schritt 1: "Wichtiges markieren", Informationen extrahieren und präzise lokalisieren - OIR-Modul

Nach der Empfangnahme eines Befehls versuchen Menschen zuerst, die Schlüsselwörter zu extrahieren und die Position zu erinnern. Das gleiche gilt für HL3DWM.

Beispielsweise, wenn die Frage "Welche Farbe hat der Sessel?" gestellt wird, fangen Menschen zuerst das Schlüsselwort "Sessel" auf, versuchen aus ihrem unscharfen Gedächtnis die Position zu erinnern und beobachten dann den Bereich, um mehr Informationen zu erhalten und die Farbe des Sessels zu bestätigen.

Um das Aufgabenverständnis und die Suche nach dem Zielbereich zu realisieren, hat die Forschung ein Objektperzeptives Bildsuchen (OIR)-Modul vorgeschlagen, das diese menschlichen Verhaltensmerkmale nachahmt. Dieses Modul extrahiert zuerst die Schlüsselwörter oder Positionsinformationen aus dem Befehl und sucht dann das entsprechende Bild, das die Details des aufgabenrelevanten Bereichs enthält. Genauer gesagt, wird der Zielbereich anhand der extrahierten Informationen mithilfe von visuellen Basismodellen wie CLIP oder Kameraparametern lokalisiert.

Schritt 2: "Sich umschauen", umgebende Umgebungsinformationen effizient zusammenfassen - EIA-Modul

Es reicht nicht, nur das Ziel zu betrachten. Das Verständnis der Umweltfaktoren ist ebenfalls wichtig. Wenn Menschen eine Aufgabe wie "Einen Musikstand aufbauen" erhalten, beobachten sie zuerst die räumliche Umgebung, suchen die benötigten Gegenstände für den Musikstand und nutzen diese Gegenstände, um den Aufbau zu bewerkstelligen. Insbesondere wenn der Befehl genaue Anforderungen an die relative Position der Objekte hat, werden die umgebenden Umgebungsinformationen zu einem unverzichtbaren Bestandteil.

Inspiriert von den menschlichen Verhaltensmerkmalen des "Sich Umschauens" und des "Filterns von unnötigen Informationen" hat die Forschung ein Umgebungsperzeptives Informationsaggregieren (EIA)-Modul eingeführt, um die umgebenden Umgebungsinformationen zu sammeln und mehr aufgabenrelevante Inhalte zu erhalten. Genauer gesagt besteht dieses Modul aus zwei Teilen: der Informationsgewinnung und der Informationsaggregation. Der erste Teil zielt darauf ab, die Informationen über den umgebenden Bereich zu erhalten, und der zweite Teil filtert und fusioniert die erhaltenen Informationen. Schließlich werden die gesammelten Informationen und der Befehl in das Large Language Model eingegeben, um die Lösung der Aufgabe zu erhalten. Die Experimentergebnisse zeigen, dass diese Methode die Informationen der Punktwolke und der aufgabenrelevanten Bilder effektiv nutzen kann und die Leistung in mehreren Aufgaben wie 3D-visuellen Fragen und 3D-dichten Beschreibungen verbessern kann.

Experimentelle Bestätigung: Spitzenleistung in mehreren 3D-Aufgaben, Überlegenheit gegenüber mehreren gleichzeitigen führenden Modellen

Das Team hat zahlreiche Experimente anhand von autoritativen Datensätzen wie ScanNet und ScanQA durchgeführt und die Leistung des Modells anhand der vier Indizes BLEU, ROUGE-L, METEOR und CIDEr bewertet. Die Ergebnisse bestätigen die starke Leistung von HL3DWM: Es hat in mehreren Kern-3D-visuellen Sprachaufgaben wie 3D-dichten Beschreibungen, 3D-visuellen Fragen und 3D-Szenenbeschreibungen hervorragende Ergebnisse erzielt und ist besser als gleichzeitige Spitzen-3D-Large Language Modelle wie LL3DA und Grounded 3D-LLM. Es kann eine Leistungssteigerung von 5 - 20% erreichen. Wenn es mit einem Large Language Model mit stärkerer Leistung kombiniert wird, kann das Gesamtergebnis weiter verbessert werden, was die Effektivität und Anpassungsfähigkeit des Ansatzes bestätigt.

Um den Arbeitsablauf des Modells intuitiver darzustellen, wurde in diesem Artikel der Arbeitsablauf von HL3DWM visualisiert (wie in Abbildung 3 gezeigt). Das Modell kann die aufgabenrelevanten Schlüsselwörter extrahieren und die aufgabenrelevanten Bilder suchen. Wenn die Frage "Was liegt auf dem kleinen Schrank unter dem Fenster?" gestellt wird, extrahiert HL3DWM zuerst die aufgabenrelevanten Schlüsselwörter wie "Fenster" und sucht dann das entsprechende Bild aus seinem Gedächtnis. Anschließend werden durch den Informationsgewinnungsprozess die umgebenden Bilder um das gesuchte Bild herum erhalten, und durch den Informationsaggregationsprozess werden die aufgabenrelevanten Token erhalten. Schließlich gibt das Large Language Model in Verbindung mit der globalen Information der Punktwolke und den feinen Details des Bildes die genaue Antwort "Auf dem kleinen Schrank unter dem Fenster liegen Bücher".

Abbildung 4 zeigt die qualitativen Ergebnisse von HL3DWM in verschiedenen Aufgaben, die die Fähigkeit des Modells zum Verständnis und Schlussfolgern in 3D-Szenen bestätigen. Die Experimentergebnisse zeigen, dass HL3DWM den 3D-Raum besser verstehen kann und die Leistung in mehreren Aufgaben wie 3D-Fragen und 3D-dichten Beschreibungen verbessern kann.

Bei der 3D-Fragenaufgabe kann HL3DWM, wenn gefragt wird "Auf welcher Seite des Stuhls ist die Instrumentenbox?", genau antworten "Auf der rechten Seite des Stuhls". Bei der 3D-dichten Beschreibungsaufgabe kann es, wenn gefragt wird "Beschreiben Sie dieses Objekt in der 3D-Szene", antworten "Dies ist ein rechteckiger brauner Tisch, um den herum Stühle stehen". Bei der 3D-Szenenbeschreibungsaufgabe kann es, wenn gefragt wird "Beschreiben Sie diese 3D-Szene", antworten "Dies ist ein geräumiger Raum, der Boden, Wände und Fenster enthält. In der Nähe des Zentrums des Raums befindet sich ein Sofa, ein weiteres Sofa ist an der Wand aufgestellt. Im Raum befindet sich auch ein Sessel. Darüber hinaus sind im Raum mehrere Tische aufgestellt. In der Ecke des Raums befindet sich eine Trennwand. Im Raum befindet sich auch eine Lampe". Bei der embodied Aufgabenplanung kann es, wenn gefragt wird "Ich möchte die Bücher auf das Regal stellen. Was soll ich tun?", nicht nur den Raum verstehen, sondern auch einen klaren und ausführbaren Schrittplan erstellen: "1. Gehen Sie zum Regal. 2. Nehmen Sie die Bücher vom Boden und legen Sie sie auf das Regal. 3. Nehmen Sie die Bücher vom Tisch und legen Sie sie auf das Regal. 4. Nehmen Sie die verbleibenden Bücher und ordnen Sie sie auf dem Regal an."

Forschungsfolgerungen

In diesem Artikel wurde ein menschähnliches 3D-Large Language Modell (HL3DWM) vorgeschlagen, das die Art und Weise, wie Menschen die 3D-Welt verstehen, und das menschliche Verhalten nachahmt, um das Verständnis und die Schlussfolgerung in 3D-Szenen zu realisieren. Dieses Modell kann effektiv globale Informationen und aufgabenrelevante Details für die Bearbeitung von Aufgaben bereitstellen.

Genauer gesagt extrahiert HL3DWM durch das designed Objektperzeptives Bildsuchen (OIR)-Modul nach der Empfangnahme des Befehls die aufgabenrelevanten Informationen und sucht das aufgabenrelevante Bild mit Details. Dann wird durch das designed Umgebungsperzeptives Informationsaggregieren (EIA)-Modul die umgebende Umgebungsinformation zusammengefasst, um ausreichende räumliche Umgebungsunterstützung für die Aufgabe bereitzustellen. Die Experimentergebnisse zeigen, dass diese Methode in verschiedenen 3D-visuellen Sprachaufgaben hervorragende Leistung erzielt und die globale Information der Punktwolke und die feinen Details der Bilder effektiv fusionieren kann.

Die Entstehung von HL3DWM beweist die Wichtigkeit, dass das Large Model die Welt wie ein Mensch "beobachtet" und "versteht". Dieser neue Ansatz, der das menschliche Denken lernt und die globale "Karte" und die lokale "hochauflösende Nahaufnahme" kombiniert, bietet nicht nur eine neue Perspektive für das Verständnis von 3D-Szenen und die Ausführung komplexer Aufgaben, sondern öffnet auch für zukünftige embodied Agenten (wie Haushaltsdienstroboter) eine intellektuelle Tür voller Vorstellungskraft und menschlicher Fürsorge, um in die komplexe reale Welt einzutreten.

Für weitere Details zur Methode und experimentelle Analysen siehe die Originalarbeit.

Titel der Arbeit: Human-Like 3D Scene Understanding and Reasoning via Image Retrieval

Autoren der Arbeit: Jiakang Yuan, Mingsheng Li, Lin Zhang, Tao Chen

Von der Spitzenkonferenz zur industriellen Umsetzung: Mou Shen Intelligence beschleunigt die Verbreitung des "embodied Gehirns"

Im Kernbereich der Forschung zur Fusion von embodied AI und 3D-visueller Sprache ist die Frage, wie Roboter die Welt wirklich verstehen, den 3D-Raum verstehen und effizient schließen können, ein dringend zu lösendes Problem. Mou Shen Intelligence, ein Unternehmen für embodied AI Basis Modelle, verleiht Roboter durch sein selbst entwickeltes Weltbewegungsmodell (World Motion Model) die allgemeine Fähigkeit, physikalische Ges

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Moushen Intelligence hat das brandneue dreidimensionale Weltmodell HL3DWM mit persönlicher menschlicher Denkweise veröffentlicht, das es Robotern ermöglicht, die reale Welt wirklich zu verstehen.