StartseiteArtikel

Shenzhen Embodied Intelligence Company erhielt eine Finanzierung von 100 Millionen Yuan von Inovance und China Telecom und belegt den ersten Platz in der Branche bei den Liefermengen von "visuellen-taktilen" Sensoren | Hard Krypton Exklusiv

黄 楠2026-06-04 09:30
Aufbau eines Weltmodells mit „visuell-haptischer“ Technologie.

Autor | Huang Nan

Redakteur | Yuan Silai

Hard Krill hat erfahren, dass Daimeng Robotics kürzlich eine Serie-A-Finanzierung im Wert von hunderten Millionen Yuan abgeschlossen hat. Die Investition stammt von der Industriefonds Huichuan Industrial Investment, die dem Huichuan Technology gehört, und China Telecom. Das Kapital wird für die weitere Entwicklung eines ultragrößeren Datensatzes mit physikalischen Interaktionsinformationen verwendet, um die Forschung und Entwicklung von Modellen der physischen Welt zu beschleunigen und das Daten-Rad und den geschlossenen Geschäftskreis in realen physischen Szenarien anzutreiben.

Daimeng Robotics begann 2023 mit der offiziellen Betriebstätigkeit. Das Kernteam hat sich seit langem auf die Bereiche der dexteren Manipulation von Robotern und der Intelligenz der physikalischen Interaktion konzentriert. Professor Wang Yu, Mitbegründer und Chefwissenschaftler, war einst der Gründungsdirektor des Robotik-Instituts der Hongkong University of Science and Technology. Die von ihm vorgeschlagenen Konzepte wie "Embodied Skills" und "Skill Cloning" sind wichtige Bestandteile der Kerntechnikroute von Daimeng Robotics. Dr. Duan Jianghua, Begründer und CEO, sowie die Haupttechnikverantwortlichen stammen alle aus dem Kernteam des Robotik-Instituts der Hongkong University of Science and Technology und verfügen über 10 Jahre Erfahrung in der Manipulationsintelligenz. Dr. Yuan Weihao, Chef-AI-Wissenschaftler, war einst ein Multimodal-Forschungsexperte im Tongyi-Labor von Alibaba und hat führende Erfahrungen in der Übertragung von Weltmodellen auf die physikalische Manipulation von Robotern.

In der heutigen Zeit, in der die Popularität der Embodied Intelligence stetig steigt, vollzieht sich ein tiefgreifender Wandel in der Branchenlogik. Die Entwicklung des Sektors folgt einem klaren Verlauf: Von der frühen Konkurrenz um die Lauf- und Bewegungssteuerungsfähigkeiten von Robotern bis hin zur Erforschung von differenzierten Algorithmusarchitekturrouten und des "Embodied Brains". Jede Welle der Hotspots hat die entscheidenden Grundlagen für die Durchbrüche gesammelt.

Mit der Überführung der Humanoid-Robotik von Bühnenpräsentationen in reale Arbeitsumgebungen steigt die Schwierigkeit der feinmechanischen Manipulation der gesamten Maschine stetig. Die Fähigkeit, hochwertige physikalische Interaktionsdaten zu sammeln, ist bereits der entscheidende Markstein für die Umsetzung in der Branche.

In den gängigen reinen visuellen Wahrnehmungslösungen können die Sensoren nur das Aussehen der Objekte erfassen und können keine physikalischen Eigenschaften wie Weichheit/Härte, Reibungskoeffizient und Verformung unter Belastung erkennen. Daher ist es schwierig, den Robotern die Vorhersage von Objektveränderungen zu ermöglichen. Im Vergleich dazu können die physikalischen Interaktionsdaten, die taktile Informationen enthalten, die Schlüsseldaten wie Momentanbelastung und Materialeigenschaften vollständig aufzeichnen. Diese Daten können in der massiven Modelltrainingsphase physikalisches Allgemeinwissen sammeln, die Konvergenz beschleunigen und den Robotern helfen, eine physikalische kausale Erkenntnis zu entwickeln, um verschiedene feine Aufgaben umzusetzen.

Daimeng beginnt mit der Sammlung und Annotation von physikalischen Interaktionsdaten und baut schrittweise eine vollständige Technologiekette, die die Wahrnehmung, Manipulation und das Lernen umfasst, auf. Dadurch wird ein Weltmodell erstellt, das den Robotern physikalisches Allgemeinwissen zur Verfügung stellt.

Im kognitiven Bereich kann das Modell die visuelle und taktile Modalität ausrichten, sodass der Roboter die physikalischen Eigenschaften eines Objekts aus einem Bild ableiten und die Form eines Objekts aus dem Gefühl ableiten kann. Im Ausführungsphase hilft die taktile Rückmeldung mit hoher Reaktionsfrequenz dem Gerät, in Millisekunden die Wahrnehmung, Beurteilung und Aktionskorrektur abzuschließen und eine geschlossene Regelung zu bilden.

Feine Manipulationen wie das Aufspießen von Trauben und das Platzieren von Eiern mit physikalischer Intuition (Quelle/Unternehmen)

"Für einen Roboter, der arbeiten kann, ist das Verständnis der Kausalität in der physischen Welt und die Rückmeldung auf der Grundlage echter Berührung unerlässlich", sagte Dr. Duan Jianghua, CEO von Daimeng Robotics, Hard Krill. "Ein Roboter, der parkour fahren und sommersaulten kann, hat einen stark reduzierten Anwendungsnutzen, wenn er ein Stück Schwamm nicht mit der richtigen Kraft aufnehmen kann, um ein Objekt zu wischen." "Das Sehen ist ein kontaktloses Fernsignal, das Ihnen sagt, wo sich ein Objekt befindet, aber es kann Ihnen nicht sagen, warum sich ein Schwamm beim Berühren verformt. Das Tasten ist genau das 'Gefühl' im Moment des Kontakts und der Schlüssel für die Beurteilung der physikalischen Kausalität und die Umsetzung feiner Manipulationen."

Aber nur Technologie und Modelle reichen nicht aus. Die Frage, wie man das Modell der physischen Welt durch einen geschlossenen Datenkreis und professionelle Bewertungsstandards kontinuierlich verbessern kann, ist eine weitere Herausforderung, der die Branche gegenwärtig gegenübersteht. Duan Jianghua sagte Hard Krill: "Das Wesen der 'Krise der taktilen Daten' liegt darin, dass die Datenrepräsentation der visuellen Modalität bereits relativ einheitlich ist, während die taktile Modalität keine Standards hat und auch über kein massives, multimodales echte Datensammelsystem verfügt."

Um dieses Problem zu lösen, hat Daimeng ein "verteiltes" Embodied-Datensammelnetzwerk aufgebaut. Anders als das traditionelle Modell, das auf feste Laboratorien und Fernbedienung basiert, verteilt das "verteilte" Sammelnetzwerk die zentralisierten Labore und führt eine verteilte soziale Datensammlung durch. Dadurch kann die Authentizität der Szenarien, die Effizienz der Datensammlung und die Reduzierung der Randkosten effektiv erreicht werden.

Im April 2026 hat Daimeng Robotics zusammen mit mehreren Dutzend führenden nationalen und internationalen Institutionen, darunter Google DeepMind, den weltweit größten Datensatz Daimon-Infinity mit taktilen multimodalen physikalischen Weltinformationen veröffentlicht. Dieser Datensatz enthält Informationen über Textur, Weichheit/Härte, Mechanik und andere Kontaktinformationen. 10.000 Stunden der Daten wurden für die Branche kostenlos zur Verfügung gestellt. Auf der Grundlage des Datensatzes wurde auch ein systematischer Bewertungsstandard etabliert. Im Juni wurde das taktile multimodale Benchmark-System RobOmni für die physikalische Interaktionsfähigkeit, das sowohl das Training mit echten Daten als auch das Training mit Simulatorsystemen unterstützt, eingeführt.

Menschliche Babys lernen die Welt kennen und entwickeln ihr Intelligenz durch Berührung. Auch für die Roboter, die bald aus der Fabrik in die Haushalte kommen, kann diese Lektion nicht übersprungen werden. Nachdem die Probleme "sehen können" und "stabil gehen können" gelöst wurden, wird "genau anfassen können" zur letzten und wichtigsten "Kilometer" für die Embodied Intelligence auf dem Weg in die physische Welt. Daimeng Robotics versucht, in diesem technologischen Prozess des "Gefühls" seine eigenen Standards zu definieren.

Menschliche Babys lernen die Welt kennen und entwickeln ihr Intelligenz durch Berührung. Auch für die Roboter, die bald aus der Fabrik in die Haushalte kommen, kann diese Lektion nicht übersprungen werden. Nachdem die Probleme "sehen können" und "stabil gehen können" gelöst wurden, wird "genau anfassen können" zur letzten und wichtigsten "Kilometer" für die Embodied Intelligence auf dem Weg in die physische Welt. Daimeng hat Hard Krill mitgeteilt, dass die Auslieferung seiner visuell-taktilen Sensoren derzeit weltweit an der Spitze steht. Es versucht, in diesem technologischen Prozess des "Gefühls" seine eigenen Standards zu definieren.

Im Folgenden ist ein Auszug aus dem Interview von Hard Krill mit Dr. Duan Jianghua, CEO von Daimeng Robotics (leicht bearbeitet):

Hard Krill: Von der Wahrnehmung zur Ausführung muss die Embodied Intelligence die Kluft zwischen "verstehen" und "arbeiten" überwinden. Wie behandelt das physikalische Weltmodell von Daimeng die Fusion der visuellen und taktilen Modalität und die untere Steuerung? Welche Aufgaben, die zuvor nicht möglich waren, kann dieses Architektur dem Roboter bei komplexen Manipulationstasks ermöglichen?

Duan Jianghua: Unser Modell inferiert die physikalische Kausalität. In der Modellstruktur haben wir die physikalische Berührung in zwei Ebenen aufgeteilt: die kognitive Ebene und die Ausführungsebene.

Auf der kognitiven Ebene wird die visuelle und taktile Modalität in einem gemeinsamen semantischen Raum bidirektional abgebildet. Dies ähnelt der Synästhesie des Menschen. Wenn Sie eine Erdbeere sehen, wissen Sie, ohne sie zu drücken, dass sie körnig sein wird. Wenn Sie mit dem Schlüssel die Tür öffnen, blockiert Ihre Hand die Sicht, wenn der Schlüssel in das Schloss gesteckt wird. Ohne die Kontaktstellung zwischen Schlüssel und Schloss zu sehen, wird der Mensch auf Intuition und Gefühl zurückgreifen, um die Operation abzuschließen - ist der Schlüssel eingeschoben, ist er festgeklemmt, muss er gedreht werden? Wir hoffen, dass auch der Roboter dies kann.

Daimeng Robotics greift ein Ei mit einer Greifzange (Quelle/Unternehmen)

Auf der Ausführungsebene laufen zwei Mechanismen gleichzeitig. Einer ist der taktile Servo mit einer Frequenz von hundert Hertz, ähnlich einer Rückenmarksreflex. Ohne die obere Schicht der Inferenz wird eine Kompensationsaktion ausgelöst, sobald ein Objekt beginnt, sich zu verschieben, noch bevor das visuelle Bild wechselt. Das ist wie beim Spülen von Geschirr. Wenn ein mit Spülmittel bedecktes Geschirrchen anfängt, zu rutschen, werden Ihre Finger sofort instinktiv zusammenziehen, ohne dass Sie es mit den Augen bestätigen müssen.

Der andere Mechanismus ist die Inferenz in der physischen Welt. Das Modell wird die zukünftigen Zustände der Manipulation kontinuierlich vorhersagen und Korrekturstrategien geben, bevor ein Fehler tatsächlich auftritt. Das ist wie beim Gießen von Wasser aus einer Kanne in ein Glas mit einer Hand. Wenn das Wasser fließt, ändert sich der Schwerpunkt der Kanne ständig. Ihr Gehirn wird die Gewichtsverteilung der Kanne in der nächsten Sekunde basierend auf der Fließgeschwindigkeit des Wassers kontinuierlich vorhersagen und den Neigungswinkel Ihres Handgelenks vorab und sanft anpassen, um sicherzustellen, dass das Wasser immer gleichmäßig fließt.

Diese beiden Mechanismen entsprechen der Reaktion in Millisekunden und der Voraussicht über mehrere Schritte. Obwohl die Zeitskalen unterschiedlich sind, arbeiten sie in derselben Aufgabe zusammen. Dies ist der wichtigste strukturelle Unterschied im Vergleich zu rein visuellen Manipulationsmodellen.

Hard Krill: Daimeng hat kürzlich auch Datensätze und ein Benchmark für die physikalische Interaktionsfähigkeit von Robotern veröffentlicht. Was ist der Zusammenhang zwischen diesen und dem physikalischen Weltmodell, das Sie entwickeln?

Duan Jianghua: Der Datensatz ist der Treibstoff, das physikalische Weltmodell ist der Motor und das Benchmark ist das Drehzahlmesser.

Traditionelle Datensätze, ob visuell oder simuliert, erfassen nur "Pixeländerungen" oder "Bahnen". Aber um den Robotern das Verständnis der physischen Welt zu ermöglichen, reichen diese Informationen bei weitem nicht aus. Beispielsweise ist ein Objekt weich oder hart? Hat es eine glatte oder raue Oberfläche? Wie groß ist der Normalkraft und die Tangentialkraft beim Greifen? Gibt es eine Verschiebungstrend? All diese Informationen gehören zu den physikalischen Eigenschaften. Der Daimon-Infinity-Datensatz erfasst Druck, Verformung, Textur, Steifheit, Verschiebungstrend und so weiter. Insgesamt gibt es mehr als zehn Modalitäten.

Die größte Schwierigkeit besteht nicht darin, eine einzelne Modalität zu erfassen, sondern darin, diese mehr als zehn taktile Modalitäten mit visuellen Bildern und Handlungsbefehlen in der Millisekunden-Zeitdimension streng auszurichten.

Daimeng Robotics führt die Aufgabe des selbstständigen Aufspießens von Trauben aus (Quelle/Unternehmen)

Nehmen wir ein Beispiel: Wenn die Finger eines Roboters ein Objekt berühren, muss der taktile Sensor die Druckverteilung und die Texturinformationen am Berührungspunkt aufzeichnen. Gleichzeitig muss die Kamera das Bild in diesem Moment aufzeichnen, und das Steuerungssystem muss den Gelenkwinkel und das Drehmoment in diesem Moment aufzeichnen. All diese drei Elemente müssen in der Zeit auf Millisekunden genau synchronisiert werden, sonst kann das Modell die richtige Kausalität nicht lernen.

Nachdem wir die Daten und das Modell haben, stellt sich die nächste Frage: Wie können wir beurteilen, ob das Modell tatsächlich die physikalische Kausalität gelernt hat? Dies ist der Sinn, warum Daimeng RobOmni eingeführt hat.

Die bestehenden Benchmark-Bewertungen im Bereich der Embodied Intelligence legen oft den Schwerpunkt auf die visuelle Wahrnehmungsmodalität und konzentrieren sich auf die generalisierte Greif- und langfristige Planungstasks von Robotern. Die Bewertungsstandards für die taktile Wahrnehmungsmodalität und die feine Manipulation bei der Berührung sind noch nicht vollständig.

Die Branche mangelt immer noch an einem standardisierten Bewertungsbenchmark für die taktile Wahrnehmung und die dexteren Manipulationen. Es fehlt ein einheitlicher Standard zwischen verschiedenen Modellen und Daten. Die taktile Fähigkeit ist schwierig zu quantifizieren, und die Generalisierungsfähigkeit der Modelle ist auch schwierig systematisch zu validieren.

Wir haben bemerkt, dass einige Teams, die sich auf die Simulation und das Sim2Real-Bereich konzentrieren, kürzlich auch die visuelle-taktile Fusionsbewertung eingeführt haben. Dies zeigt genau, dass die gesamte Branche auf dem neuesten Stand eine Einigkeit erreicht hat - um den Robotern das echte Verständnis der Welt und die Interaktion mit der Welt zu ermöglichen, reicht die reine visuelle Wahrnehmung nicht aus, und die taktile Wahrnehmung ist unvermeidlich. RobOmni füllt diese Lücke und bietet einen standardisierten, vergleichbaren, reproduzierbaren und erweiterbaren Validierungsansatz für die physikalische Interaktionsfähigkeit.

Ohne ein Messgerät kann man den Fortschritt nicht messen. Ohne Standards kann die Branche keine gemeinsame Kraft bilden. Deshalb müssen wir zuerst ein Messgerät herstellen und dann