Shenzhen Embodied Intelligence Company: 100 Millionen Yuan Finanzierung von Inovance und China Telecom, "visuo-taktilen" Sensoren führen in Liefermenge

Aufbau eines Weltmodells mit "Visuo-Taktil"-Technologie.

Autor | Huang Nan

Redakteur | Yuan Silai

Hard Krueger hat erfahren, dass Daimeng Robotics kürzlich eine Serie - A - Finanzierung im Wert von hunderten Millionen Yuan abgeschlossen hat, die von der Industriefonds Huichuan Chantou, einer Tochtergesellschaft von Huichuan Technology, und China Telecom gemeinsam investiert wurde. Das Kapital wird zur weiteren Schaffung eines ultragrößeren Datensatzes mit physischen Interaktionsinformationen verwendet, um die Forschung und Entwicklung des physischen Weltmodells zu beschleunigen und das Datenrad und den geschlossenen Geschäftszyklus in realen physischen Szenarien anzutreiben.

Daimeng Robotics hat 2023 offiziell mit der Geschäftstätigkeit begonnen. Das Kernteam hat sich seit langem auf die Bereiche der dexteren Manipulation von Robotern und der künstlichen Intelligenz für physische Interaktionen konzentriert. Professor Wang Yu, Mitbegründer und Chefwissenschaftler, war einst der Gründungsdirektor des Robotik - Instituts der Hongkong University of Science and Technology. Die Konzepte wie "Embodied Skills" und "Skill Cloning", die er vorgeschlagen hat, sind wichtige Bestandteile der Kerntechnologie von Daimeng Robotics. Dr. Duan Jianghua, Gründer und CEO, sowie die Haupttechnikverantwortlichen stammen alle aus dem Kernteam des Robotik - Instituts der Hongkong University of Science and Technology und verfügen über 10 Jahre Erfahrung in der Manipulationsintelligenz. Dr. Yuan Weihao, Chef - AI - Wissenschaftler, war einst ein Multimodal - Forschungsexperte im Tongyi - Labor von Alibaba und hat führende Erfahrungen in der Übertragung von Weltmodellen auf die physische Manipulation von Robotern.

Im Zeitalter des anhaltend steigenden Interesses an Embodied Intelligence ändert sich die Branchenlogik tiefgreifend. Die Entwicklung des Sektors folgt einem klaren Verlauf: Von der frühen Konkurrenz um die Lauf - und Bewegungssteuerungsfähigkeiten von Robotern bis zur Erforschung von differenzierten Algorithmusarchitekturen und des "Embodied Brain". Jede Welle von Hotspots hat die Schlüsselgrundlagen für die Durchbrüche gesammelt.

Mit der Überführung der menschlichenoidalen Roboter von Bühnenvorführungen in reale Arbeitsumgebungen steigt die Schwierigkeit der feinen Manipulation von Ganzmaschinen kontinuierlich. Die Fähigkeit, hochwertige physische Interaktionsdaten zu sammeln, ist bereits der Schlüsselunterschied für die Branchenimplementierung geworden.

In den gängigen reinen visuellen Wahrnehmungslösungen können die Sensoren nur das Aussehen von Objekten erfassen, aber keine physikalischen Eigenschaften wie Weichheit, Reibungskoeffizient und Verformung unter Belastung erkennen. Dies erschwert es, dass die Roboter die Veränderungen von Objekten vorhersagen können. Im Vergleich dazu können die physischen Interaktionsdaten, die taktile Informationen integrieren, die Schlüsselparameter wie Momentanbelastung und Materialeigenschaften vollständig aufzeichnen. Dadurch können in der massiven Modelltrainingsphase physikalische Kenntnisse gesammelt und die Konvergenz beschleunigt werden, was den Robotern hilft, eine physikalische kausale Erkenntnis zu entwickeln und verschiedene feine Arbeitsaufgaben umzusetzen.

Daimeng beginnt mit der Sammlung und Annotation von physischen Interaktionsdaten und baut schrittweise eine vollständige technische Kette, die Wahrnehmung, Manipulation und Lernen umfasst, auf. Dadurch wird ein Weltmodell erstellt, das den Robotern physikalische Kenntnisse vermitteln kann.

Auf der kognitiven Ebene kann das Modell die visuelle und taktile Modalität ausrichten, sodass die Roboter die physikalischen Eigenschaften von Objekten aus Bildern ableiten können und auch die Form von Objekten aus der taktilen Empfindung erschließen können. In der Ausführungsphase hilft die taktile Rückmeldung mit hoher Reaktionsfrequenz den Geräten, in Millisekunden die Wahrnehmung, das Urteilen und die Korrektur der Aktionen abzuschließen und eine geschlossene Steuerung zu bilden.

Feine Manipulationen wie das Aufspießen von Trauben und das Platzieren von Eiern mit physikalischer Intuition (Quelle/Betrieb)

"Für die Roboter, um Arbeit zu verrichten, ist das Verständnis der physikalischen Kausalität in der realen Welt und die Rückmeldung basierend auf realen Berührungen unerlässlich", sagte Dr. Duan Jianghua, CEO von Daimeng Robotics, an Hard Krueger. Ein Roboter, der parkour fahren und sommersaulten kann, hat einen stark reduzierten Anwendungsnutzen, wenn er nicht in der Lage ist, einen Schwamm mit der richtigen Kraft zu greifen und ein Objekt zu wischen. "Das Sehen ist ein kontaktloses Signal aus der Ferne. Es kann Ihnen sagen, wo sich ein Objekt befindet, aber nicht, warum ein Schwamm sich verformt, wenn man ihn berührt. Die taktile Empfindung ist genau die 'Gefühlshand' in dem Moment des Kontakts und der Schlüssel für das Urteilen der physikalischen Kausalität und die Durchführung feiner Manipulationen."

Aber nur Technologie und Modelle reichen nicht aus. Die Frage, wie man das physische Weltmodell durch einen geschlossenen Datenzyklus und professionelle Bewertungsstandards kontinuierlich verbessern kann, ist eine weitere Herausforderung, der die Branche gegenwärtig gegenübersteht. Dr. Duan Jianghua sagte an Hard Krueger: "Das Wesen der Knappheit an taktilen Daten liegt darin, dass die Datenrepräsentation der visuellen Daten relativ einheitlich ist, während es für die taktilen Daten keine Standards gibt und es an einem massiven, multimodalen realen Sammlungssystem fehlt."

Um dieses Problem zu lösen, hat Daimeng ein "externes" Embodied - Daten - Sammelnetzwerk aufgebaut. Im Gegensatz zum traditionellen Modell, das auf festen Laboratorien und ferngesteuerten Sammlungen beruht, verteilt das "externe" Sammelnetzwerk das zentrale Labor und führt eine verteilte soziale Sammlung durch. Dadurch kann die Realität der Szenarien, die Effizienz der Sammlung und die Reduzierung der Grenzkosten effektiv erreicht werden.

Im April 2026 hat Daimeng Robotics zusammen mit mehreren Dutzend führenden nationalen und internationalen Institutionen, darunter Google DeepMind, den weltweit größten Datensatz Daimon - Infinity mit taktilen multimodalen physischen Weltinformationen veröffentlicht. Dieser Datensatz enthält Informationen über Textur, Weichheit, Mechanik und andere Berührungsinformationen. 10.000 Stunden des Datensatzes werden der Branche kostenlos zur Verfügung gestellt. Auf der Grundlage des Datensatzes wurde auch ein systematischer Bewertungsstandard etabliert. Im Juni wurde das taktile multimodale Benchmark - System RobOmni für die physische Interaktionsfähigkeit vorgestellt, das sowohl das Training mit realen Daten als auch das Training mit Simulatorsystemen unterstützt.

Menschliche Babys lernen die Welt kennen und entwickeln ihre Intelligenz durch Berühren. Für die Roboter, die bald aus den Fabriken in die Haushalte kommen, kann diese Lektion nicht übersprungen werden. Nachdem das Problem des "Sehens" und des "Stabilen Gehens" gelöst wurde, wird das "Genau - Fühlen" zur letzten und wichtigsten "Kilometerstrecke" für die Embodied Intelligence auf dem Weg in die physische Welt. Daimeng Robotics versucht, in diesem technologischen Prozess der "Gefühlshand" seine eigenen Standards zu definieren.

Menschliche Babys lernen die Welt kennen und entwickeln ihre Intelligenz durch Berühren. Für die Roboter, die bald aus den Fabriken in die Haushalte kommen, kann diese Lektion nicht übersprungen werden. Nachdem das Problem des "Sehens" und des "Stabilen Gehens" gelöst wurde, wird das "Genau - Fühlen" zur letzten und wichtigsten "Kilometerstrecke" für die Embodied Intelligence auf dem Weg in die physische Welt. Daimeng hat an Hard Krueger angegeben, dass die Auslieferungszahlen seiner visuell - taktilen Sensoren derzeit weltweit an der Spitze stehen. Es versucht, in diesem technologischen Prozess der "Gefühlshand" seine eigenen Standards zu definieren.

Im Folgenden ist ein Auszug aus dem Interview von Hard Krueger mit Dr. Duan Jianghua, CEO von Daimeng Robotics (leicht bearbeitet):

Hard Krueger: Von der Wahrnehmung zur Ausführung muss die Embodied Intelligence die Kluft zwischen "Verstehen" und "Arbeiten" überwinden. Wie behandelt das physische Weltmodell von Daimeng die Fusion der visuell - taktilen Modalität und die untere Steuerung? Welche Aufgaben, die zuvor nicht möglich waren, kann dieses System den Robotern bei komplexen Arbeitsaufgaben ermöglichen?

Duan Jianghua: Unser Modell inferiert die physikalische Kausalität. In der Modellstruktur haben wir die physische Berührung in zwei Ebenen aufgeteilt, nämlich die kognitive Ebene und die Ausführungsebene.

Die Aufgabe der kognitiven Ebene ist es, die visuelle und taktile Modalität in demselben semantischen Raum bidirektional abzubilden. Dies ähnelt der Synästhesie des Menschen. Wenn Sie eine Erdbeere sehen, wissen Sie, ohne sie zu drücken, dass sie eine körnige Textur hat. Wenn Sie mit dem Schlüssel die Tür öffnen, blockiert Ihre Hand die Sicht, wenn der Schlüssel in das Schloss gesteckt wird. Ohne die Kontaktlage zwischen Schlüssel und Schloss zu sehen, wird der Mensch auf Intuition und taktile Empfindung setzen, um die Aktion abzuschließen - ist der Schlüssel eingeschoben, ist er festgeklemmt, muss er gedreht werden? Wir hoffen, dass die Roboter auch in der Lage sein werden, dies zu tun.

Daimeng Robotics greift ein Ei mit einer Greifzange (Quelle/Betrieb)

Auf der Ausführungsebene laufen zwei Mechanismen gleichzeitig. Einer ist der hochfrequente taktile Servomechanismus im Bereich von Hunderten von Hertz, ähnlich einer Rückenmarksreflex. Ohne die obere Schicht der Inferenz wird die Kompensationsaktion bereits ausgelöst, wenn das Objekt erst den Trend zum Rutschen zeigt, bevor das visuelle Bild wechselt. Das ist wie beim Spülen von Geschirr. Wenn ein mit Spülmittel bedecktes Geschirr anfängt, zu rutschen, werden Ihre Finger automatisch festkrallen, ohne dass Sie es mit den Augen bestätigen müssen.

Der andere Mechanismus ist die Inferenz der physischen Welt. Das Modell wird kontinuierlich den Zustand der kommenden Aktionen vorhersagen und Korrekturstrategien geben, bevor ein Fehler tatsächlich auftritt. Das ist wie beim Gießen von Wasser aus einem Krug in ein Glas. Mit dem Ausfließen des Wassers ändert sich der Schwerpunkt des Krugbodens kontinuierlich. Ihr Gehirn wird basierend auf der Fließgeschwindigkeit des Wassers die Gewichtsverteilung des Krug in der nächsten Sekunde vorhersagen und die Neigung des Handgelenks vorab und sanft anpassen, um sicherzustellen, dass das Wasser gleichmäßig fließt.

Diese beiden Mechanismen entsprechen der Reaktion in Millisekunden und der Voraussicht über mehrere Schritte. Obwohl sie auf unterschiedlichen Zeitskalen operieren, arbeiten sie in derselben Aufgabe zusammen. Dies ist der wichtigste strukturelle Unterschied im Vergleich zu reinen visuellen Manipulationsmodellen.

Hard Krueger: Daimeng hat kürzlich auch Datensätze und ein Benchmark für die physische Interaktionsfähigkeit von Robotern veröffentlicht. Was ist der Zusammenhang zwischen diesen und dem physischen Weltmodell, das Sie entwickeln?

Duan Jianghua: Der Datensatz ist der Treibstoff, das physische Weltmodell ist der Motor und das Benchmark ist das Drehzahlmesser.

Traditionelle Datensätze, ob visuell oder simuliert, erfassen nur "Pixeländerungen" oder "Bahnen". Um den Robotern das Verständnis der physischen Welt zu vermitteln, reichen diese Informationen jedoch weit nicht aus. Beispielsweise, ob ein Objekt weich oder hart ist, ob seine Oberfläche glatt oder rau ist, wie groß der Normalkraft und die Tangentialkraft beim Greifen sind und ob es einen Rutschtrend gibt. All diese Informationen gehören zu den physikalischen Eigenschaften. Der Daimon - Infinity - Datensatz erfasst Druck, Verformung, Textur, Steifheit, Rutschtrend und noch mehr als ein Dutzend Modalitäten.

Die größte Schwierigkeit besteht nicht darin, eine einzelne Modalität zu sammeln, sondern darin, diese mehr als ein Dutzend taktilen Modalitäten mit den visuellen Bildern und den Handlungsbefehlen in einer Millisekunden - Spatio - Temporal - Dimension streng auszurichten.

Daimeng Robotics realisiert die Aufgabe des selbstständigen Aufspießens von Trauben (Quelle/Betrieb)

Nehmen wir als Beispiel den Moment, wenn die Finger eines Roboters ein Objekt berühren. Der taktile Sensor muss die Druckverteilung und die Texturinformationen am Kontaktpunkt aufzeichnen, während die Kamera das Bild in diesem Moment aufnimmt und die Steuerungseinheit den Gelenkwinkel und das Drehmoment in diesem Moment aufzeichnet. Alle drei müssen in der Zeit auf Millisekunden genau synchronisiert werden, sonst kann das Modell die richtige kausale Logik nicht lernen.

Nachdem wir die Daten und das Modell haben, stellt sich die nächste Frage - wie können wir beurteilen, ob das Modell tatsächlich die physikalische Kausalität gelernt hat? Dies ist der Sinn, warum Daimeng RobOmni entwickelt hat.

Die bestehenden Benchmark - Bewertungen im Bereich der Embodied Intelligence konzentrieren sich oft auf die visuelle Wahrnehmungsmodalität und legen den Schwerpunkt auf die generische Greiffähigkeit und die langfristige Sequenzplanung von Robotern. Die Bewertungsstandards für die taktile Wahrnehmungsmodalität und die feine Berührungsmanipulation sind noch nicht vollständig.

Die Branche fehlt immer noch an einem standardisierten Bewertungsbenchmark für die taktile Wahrnehmung und die dexteren Manipulationen. Es fehlt an einem einheitlichen Standard zwischen verschiedenen Modellen und Daten. Die taktile Fähigkeit ist schwer zu quantifizieren, und die Generalisierungsfähigkeit der Modelle ist auch schwer systematisch zu überprüfen.

Wir haben bemerkt, dass einige Teams, die sich auf die Simulation und das Sim2Real - Bereich konzentrieren, kürzlich auch die visuelle - taktile Fusionsbewertung eingeführt haben. Dies zeigt genau, dass sich die gesamte Branche auf einem Konsens einigt - um den Robotern das echte Verständnis der Welt und die Interaktion mit ihr zu ermöglichen, reicht die reine visuelle Wahrnehmung nicht aus, und die taktile Wahrnehmung ist unvermeidlich. RobOmni füllt diese Lücke und bietet einen standardisierten, vergleichbaren, reproduzierbaren und erweiterbaren Validierungsansatz für

Dieser Artikel wurde ursprünglich von「黄楠」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Shenzhen Embodied Intelligence Company erhielt eine Finanzierung in Höhe von 100 Millionen Yuan von Inovance und China Telecom; seine "visuo-taktilen" Sensoren belegen den ersten Platz in der Branche nach Liefermenge | HardKr Exklusiv