StartseiteArtikel

IDEA-Forschungsinstitut kooperiert mit Tencent, Meituan und BYD im Bereich Embodied Intelligence | Frontline

黄 楠2024-11-22 22:13
Um Roboter einzusetzen, muss zuerst das Hochrisikoszenario gelöst werden.

Autor|Huang Nan

Herausgeber|Yuan Silai

Für verkörperte Intelligenz sind die Entwicklung von Umgebungswahrnehmung und -verständnis Kernfähigkeiten. Seit der Einführung der Transformer-Architektur hat die visuelle Wahrnehmung als Basis der Interaktion von Maschinen mit der physischen Welt an Bedeutung gewonnen. Die visuelle Modellierung wurde mit dieser Architektur kombiniert und folgte dem Weg "von klein zu groß, von N zu 1", was die visuelle Wahrnehmungsfähigkeit in allen Szenarien verbessert und Raum für die technische Umsetzung erweitert hat.

Am 22. November fand in Shenzhen die IDEA-Konferenz 2024 statt, bei der das IDEA-Institut das neueste allgemeine visuelle Großmodell DINO-X vorstellte. Dieses Modell verfügt über die Fähigkeit, Objekte zu verstehen, ohne Benutzerhinweise zu benötigen, um die Erkennung von Zielen in einer offenen Welt zu ermöglichen. Gleichzeitig wurde eine Branchenplattformarchitektur eingeführt, die durch die Kombination von allgemein erkennbaren Technologien eine kontinuierliche Anpassung ohne erneutes Training des Modells ermöglicht, um verschiedene Anwendungsbedürfnisse zu unterstützen.

In der neuen Welle der Technologieimplementierung, vertreten durch verkörperte Intelligenz, wird der Weg der Technologieentwicklung stärker auf Generalisierung und die Anpassung an reale Szenarien ausgerichtet. Während der Konferenz gab das IDEA-Institut drei große Kooperationen bekannt: mit Tencent den Aufbau des Fuchuan-Labors im Shenzhen Futian District und in der Hetao-Region für die technologische Zusammenarbeit zwischen Shenzhen und Hongkong, mit Fokus auf verkörperte Intelligenz in Wohnumgebungen; mit Meituan die Erforschung von Drohnen-Intelligenz; mit BYD die Ausweitung intelligenter Anwendungen in der industriellen Robotik.

Shen Xiangyang, Vorsitzender des IDEAs Gründungsausschuss und ausländisches Mitglied der Nationalen Akademie der Ingenieurwissenschaften der USA

Bisher sind Roboter in Szenarien wie Fabrikherstellung, Automobilmontage und Logistiklagern tätig und können grundlegende Arbeiten im halbstrukturierten Bereich erledigen, aber ihnen fehlt noch das Bewusstsein für reale Szenarien, was ihre Anwendungsreichweite einschränkt; beispielsweise müssen Logistiklieferungen von Bodenfahrzeugen in Wohngebieten komplexe Bodenbedingungen bewältigen.

Zhang Lei, Leiter des Zentrums für Computer Vision und Robotik des IDEA-Instituts, erklärte: „Roboter haben unterschiedliche Formen, wie Zweiarmroboter oder mobile Roboter. Wenn mobile Roboter in Innen- und Außenbereiche unterteilt werden, ähnelt der Außenbereich eher dem autonomen Fahren und muss sich mit strukturellen und halbstrukturellen Straßenumgebungen auseinandersetzen. Autobahnen sind stärker strukturiert, in der Stadt und in kleinen Gassen sind die Herausforderungen komplexer.“

Mit dem Aufkommen großer KI-Modelle haben sich die kognitiven und Entscheidungsfähigkeiten von Robotern erheblich verbessert. Han Lei, Leiter des Robotics X Lab Intelligent Center von Tencent, bemerkte: „Sprache als hochabstraktes Symbol menschlichen Wissens oder Denkens kann für langfristige und langsame hochdimensionale Überlegungen genutzt werden. Roboter sind Akteure, die die Welt aus der Ich-Perspektive betrachten, und es ist daher entscheidend, die Welt visuell zu verstehen.“

Runder Tisch „Von der Vision zur Aktion: Herausforderungen und Chancen verkörperter Intelligenz“

Wenn Roboter sich bewegen, beispielsweise beim Falten eines Papierkartons oder der Bewegung in eine bestimmte Richtung, sind die Schritte schwer einfach zu beschreiben. Die Einbindung multimodaler Kombinationen und das Verschmelzen physikalischer Weltkenntnisse in die verkörperte Intelligenz kann die Perspektive des Roboters auf das Weltverständnis effektiv verbessern.

In Bezug auf die Implementierung meinte Mao Yinian, Vizepräsident von Meituan und Leiter der Drohnenabteilung, dass die primären Anwendungsszenarien für Roboter in den risikoreichen Aufgabenbereichen des Menschen liegen sollten, wie Inspektionen in Bergregionen, Tiefseetestungen, Bohrungen auf Ölfeldern oder die Reinigung hoher Gebäude. „Mit der Entwicklung von ganzheitlicher Steuerung, Bewegungssteuerung, Hand- und Sichtkooperation können Roboter in kleinen Szenarien eingeführt und genutzt werden, ohne dass Nutzer sie loben oder kritisieren. Unser Ziel ist, dass sie ohne Probleme funktionieren.“

Auf dem IDEA-Kongress betonte Shen Xiangyang, Vorsitzender des Gründungsausschusses des IDEA-Instituts und ausländisches Mitglied der Nationalen Akademie der Ingenieurwissenschaften der USA, dass es in Zeiten technischer Explosion besonders wichtig ist, Technologie tiefgehend zu verstehen. „Shenzhen ist eine Stadt, die Hardware mit der Geschwindigkeit der Software-Iteration iteriert.“

Zusätzlich zum bereits erwähnten Futian-Labor hat IDEA in Zusammenarbeit mit der Qianhai Shenzhen-Hong Kong Cooperation Zone das IDEA Qianhai Innovation Institute gegründet, das IDEA Low-Altitude Economic Branch in Zusammenarbeit mit dem Longgang District in Shenzhen und das IDEA- Hengqin Digital Technology and Artificial Intelligence Evaluation Center gemeinsam mit der Hengqin Guangdong-Macau Deep Cooperation Zone ins Leben gerufen. In Bezug auf das Start-up-Ökosystem hat IDEA Unternehmen wie Shiyuan Technology, den AI-Begleiterroboter AIXiaoban und den GPU-beschleunigten Filmindustrie-Renderer Smaray hervorgebracht.