Das geheime Embodied - Team, das 1,7 Milliarden Yuan in der Angel - Runde finanziert hat: Antworten auf 11 Schlüsselfragen

Nach dem rekordbrechenden Angel-Rund-Finanzierungsvorgang hat Tash Robotics erstmals detailliert ihre "Embodied Methodology" enthüllt.

Text | Wang Xin

Redaktion | Su Jianxun

Im mutigen Gründungsboom für Embodied Intelligence im Jahr 2025 hat "Tashii Intelligence Navigation" absolute aufsehenerregende Stärken gezeigt.

Dies ist ein "Traumteam", das aus Kernmanagern der nationalen Spitzenschule für intelligente Fahrzeugführung besteht. Chen Yilun, der CEO von Tashii Intelligence Navigation, war zuvor der CTO des autonomen Fahrsystems bei der Huawei Car BU; Ding Wenchao, der Chefwissenschaftler, war einst ein "Genie Teenager" von Huawei. Der Vorsitzende des Vorstands, Li Zhenyu, war der ehemalige Präsident der Geschäftseinheit für intelligente Fahrzeugführung von Baidu und hat die weltweit größte Robotaxi-Fahrplattform "Luobo Kuaipao" geschaffen.

Im Bereich der autonomen Fahrzeugführung sind sowohl Chen Yilun als auch Li Zhenyu "berühmte Generäle", die Tausende-Mann-Teams geleitet und Siege errungen haben. Ihre gemeinsame Unternehmensgründung hat auch dazu geführt, dass Tashii Intelligence Navigation schnell zur Lieblingsunternehmung der Kapitalgeber geworden ist. Im März dieses Jahres hat Tashii Intelligence Navigation mit einer Finanzierungssumme von 120 Millionen US-Dollar den Rekord für die größte Finanzierung in der Angel-Runde der chinesischen Embodied-Intelligence-Branche aufgestellt.

Die Kapitalgeber schätzen die technologische Akkumulation und die Personalarbeitskräfte von Tashii Intelligence Navigation. Wang Huai, Gründer und CEO von Linear Capital, hat Tashii Intelligence Navigation einmal so bewertet: "Sie können viele Erfahrungen aus der Entwicklung von Hardware und Software für die autonome Fahrzeugführung bei Huawei mit der Denk- und Schlussfolgerungsfähigkeit von Large Language Models verbinden und diese auf Embodied Roboter anwenden."

Trotz des Rekords bei der Angel-Runden-Finanzierung und des so luxuriösen Gründerteams hat Tashii Intelligence Navigation im Jahr 2025 im Gegensatz zu anderen Embodied-Intelligence-Unternehmen selten Fortschritte veröffentlicht, während andere Unternehmen häufiger über ihre Auslieferungszahlen und technologischen Durchbrüche berichten.

Quelle: Tashii Intelligence Navigation

Am 19. Dezember hat Tashii Intelligence Navigation eine Online-Pressekonferenz veranstaltet, die nur 40 Minuten gedauert hat. Das gezeigte Ergebnis war "der weltweit erste Roboter, der Stickerei absolvierte".

Warum wurde dieser Szenario gewählt? "Dies ist eine Überprüfung unserer derzeitigen technologischen Fähigkeiten." Chen Yilun, der CEO von Tashii Intelligence Navigation, sagte der Zeitschrift "Intelligent Emergence". Die technologischen Fähigkeiten, von denen er spricht, beziehen sich auf langfristige (einschließlich mehrstufiger Aufgaben), fein komplexe (ähnlich wie Stickerei) Bewegungsaufgaben, wobei das zu manipulierende Objekt flexibel und schwierig zu modellieren ist.

Derzeit wird in der Embodied-Intelligence-Branche üblicherweise die Fähigkeit zur Greifung, zum Falten von Kleidung und zum Ausgießen von Kaffee zur Demonstration der technologischen Fähigkeiten verwendet. Laut offiziellen Angaben von Tashii Intelligence Navigation hat bisher kein Unternehmen die Fähigkeit eines Roboters zur Stickerei öffentlich gezeigt. Dies liegt daran, dass es für Roboter viel schwieriger ist, flexible Objekte zu handhaben als starre Gegenstände.

Das allgemeine VLA hat Schwierigkeiten, dieses Problem zu lösen. VLA ist im Wesentlichen eine visuelle Aufgabenführung, daher gibt es bei der Wahrnehmung von Kraft oder Tastempfindungen natürliche Grenzen. Deshalb können wir beobachten, dass die Exploration in der Branche auf dem Gebiet der Vision allmählich abnimmt, aber es besteht keine Einigkeit darüber, wie man Kraft oder Tastempfindungen behandeln soll, und es gibt keine einheitliche Methode zur Datenerfassung.

Das Weltmodell kann dieses Problem lösen. Dies ist auch einer der wichtigen Geschäftsfelder von Tashii Intelligence Navigation. Tashii hat sein Embodied-Basis-Modell - TARS AWE (AI World Engine) 2.0 - aufgebaut. Die in der Realität gesammelten Daten werden durch eine einstufige Ganzkörper-End-to-End-Lernmethode auf den Roboter übertragen.

Die Schwierigkeit bei der Handhabung flexibler Objekte besteht darin - man muss nicht nur wissen, wie man sich bewegt, sondern auch, wie sich die Umwelt nach der Bewegung verändert, und man muss auf diese Veränderungen reagieren. Das Weltmodell kann genau diese Kernkonflikte lösen. Es kann zwei Schlüsselfaktoren vorhersagen: Erstens, welche Aktion man nach dem Erkennen einer Situation ausführt, und zweitens, es kann ein Modell erstellen, um vorherzusagen, wie sich die Welt nach der Aktion verändern wird.

Die Kernherausforderung des Weltmodells liegt in der Datenerfassung und der räumlichen Wahrnehmung.

Wie kann man diese Herausforderung bewältigen? Chen Yilun, CEO von Tashii Intelligence Navigation, und Ding Wenchao, Chefwissenschaftler, haben an die technologischen Überlegungen aus ihrer Zeit in der autonomen Fahrzeugführung gedacht. Sie haben festgestellt, dass viele Probleme in der Embodied-Intelligence-Branche Antworten in der Entwicklung der autonomen Fahrzeugführung finden können.

Bei der Partnerschaftskonferenz der Yuan-Fonds von BlueRun Ventures im Jahr 2025 hat Chen Yilun gesagt, dass als er 2022 das Team für autonome Fahrzeugführung von Huawei verließ, das letzte Produktmerkmal, das er abgeliefert hat, ein End-to-End-System war. Nach der Implementierung in einem sehr komplexen Dorf mit vermischten Fahrzeugen und Fußgängern waren die Ingenieure von der flexiblen und intelligenten Fahrleistung des Systems beeindruckt. Ein schwarzes Kasten-Neurales Netzwerk konnte mit End-to-End-Technologie erstaunliche Ergebnisse erzielen. In diesem Moment hat er erkannt, dass die Zeit der Algorithmen als Ersatz für komplexe Engineering-Stacks gekommen ist.

Im Laufe dieses Prozesses hat er allmählich die Überlappung zwischen autonomer Fahrzeugführung und Embodied Intelligence entdeckt: "Autonome Fahrzeugführung und Robotiktechnologie stammen aus derselben Wurzel. Die frühen Technologie-Stacks der autonomen Fahrzeugführung stammen alle aus derselben Quelle. Wenn End-to-End-Technologie in der autonomen Fahrzeugführung große Macht entfaltet, bin ich überzeugt, dass es auch in der Robotiktechnologie einen entsprechenden vollständigen AI-Algorithmen-Stack geben muss."

"Die gegenwärtige Phase der Embodied Intelligence entspricht der Phase der autonomen Fahrzeugführung im Jahr 2019." Chen Yilun sagte der Zeitschrift "Intelligent Emergence": "Als die Probleme wie Schneeflocken herabregneten, haben wir uns ernsthaft darüber Gedanken gemacht, wie man die autonome Fahrzeugführung wirklich skalieren kann, damit die Fähigkeit zur Problemlösung höher ist als die Fähigkeit zur Problemfindung."

Genau wie in der gegenwärtigen Embodied-Intelligence-Branche bestand auch damals das Problem, dass es an Daten fehlte. Chen Yilun hat beobachtet, dass man für den Durchbruch in der Datenerfassung der autonomen Fahrzeugführung 10.000 Stunden an sorgfältig ausgewählten, hochwertigen Datensegmenten benötigt. Aufgrund der hohen Komplexität der Aufgaben in der Embodied Intelligence ist der Datenbedarf um eine Größenordnung höher, d. h. man benötigt mindestens 1 Million Stunden an echten Szenariodaten.

Dies hat die technologische Hauptlinie von Tashii Intelligence Navigation festgelegt: Die eigenentwickelte Datenerfassungssystem für Embodied Intelligence - SenseHub (einschließlich Handschuhe und Panoramakamera) - wird eingesetzt, um Datensätze über Umgebungs-Semantik wie Bewegungen, Sprache und Tastempfindungen in echten menschlichen Szenarien zu sammeln. Auf der Grundlage dieser echten Daten wird das Embodied-Basis-Modell TARS AWE 2.0 weiter aufgebaut.

Quelle: Tashii Intelligence Navigation

Nach Ansicht von Chen Yilun und Ding Wenchao ist dies der kürzeste Weg, um die Machbarkeit des Scaling Laws in der Embodied Intelligence zu erkunden, d. h. durch die Eingabe von genügend Daten, damit Roboter Fähigkeiten wie Stickerei entwickeln können.

Sie sehen auch das Potenzial dieser Fähigkeit: "Nur wenn man die Handhabung von flexiblen Objekten gut kann, kann man wirklich eine flexible Produktionslinie mit hoher Produktivität erreichen und die Automatisierung in allen Ecken der Fabrik wirklich verwirklichen."

Im Folgenden finden Sie das Interview von "Intelligent Emergence" mit Chen Yilun, CEO von Tashii Intelligence Navigation, und Ding Wenchao, Chefwissenschaftler. Der Inhalt wurde bearbeitet und editiert:

1. F: War der bei der Pressekonferenz gezeigte Stickerei-Roboter ein Demo, um die Fähigkeiten des Roboters zu zeigen, oder wird dieser Gerät in Zukunft in Serie produziert?

Chen Yilun: Die Serienproduktion erfordert spezifische industrielle Szenarien. Diese Stickerei-Demonstration ist eine Überprüfung der Roboterfähigkeiten.

2. F: Was genau ist mit dieser Überprüfung der Fähigkeiten gemeint?

Chen Yilun: Diese Generation von Embodied Robotern sollte langfristige, fein komplexe Bewegungsaufgaben lösen, und das zu manipulierende Objekt sollte flexibel und schwierig zu modellieren sein. Das Greifen von starren, großen Objekten können die Roboter der letzten Generation bereits gut.

3. F: Welche konkreten Fabriken oder Arbeitsbereiche werden Sie als Implementierungsszenarien auswählen?

Chen Yilun: Wir haben drei Kernprinzipien für die Auswahl der Implementierungsszenarien: Echte Nachfrage, die von eindeutigen Problemen auf dem Markt ausgeht; feine Granularität, damit die Lösung eine ausreichend große Gruppe erreichen kann; hohe Schwierigkeit, denn echte Nachfrage und ein großer Markt bedeuten oft sehr hohe technologische Hürden, und dies ist unsere Kernkompetenz. Flexible Montage ist zum Beispiel ein sehr eindeutiges Implementierungsszenario und befindet sich derzeit in der kommerziellen Phase.

4. F: Im Vergleich zu anderen Embodied-Unternehmen sind Sie in der Branche sehr zurückhaltend. Die Öffentlichkeit interessiert sich auch sehr für Ihre Fortschritte. Können Sie einige der wichtigsten Schlüsselfortschritte im Jahr 2025 vorstellen?

Chen Yilun: Wir arbeiten an drei Dingen - Super-Algorithmen, Super-Körper und Super-Intelligenz.

Super-Algorithmen: Wir glauben, dass es sich um ein komplexeres großes AI-System als das System für die autonome Fahrzeugführung handelt. Es muss die Hürden der Datenerfassung, der Algorithmenentwicklung und des Scaling Laws auf der Ebene der Umweltinteraktion überwinden.

Super-Körper: Wir setzen auf die Eigenentwicklung von Hardware. Unser Ziel ist es, die Fähigkeit zu haben, "Hardware nach Belieben für AI zu entwerfen", um sicherzustellen, dass die Hardware der beste Träger für die Algorithmen in der physischen Welt ist, anstatt einfach eine Basisbaugruppe zu sein.

Super-Anwendung: Wir streben danach, die tatsächliche Industrialisierung zu erreichen, damit die Technologie als Produktionsmittel oder Dienstleistung einen echten kommerziellen Wert vermittelt, anstatt nur ein Demo zu sein.

5. F: Gibt es bei der Datenerfassung eine Schwellenmenge?

Chen Yilun: Um die kommerzielle Nutzung der autonomen Fahrzeugführung zu erreichen, benötigt man 10.000 Stunden an sorgfältig ausgewählten, hochwertigen Datensegmenten. Aufgrund der hohen Komplexität der Aufgaben in der Embodied Intelligence schätzen wir, dass der benötigte Datenumfang mindestens zehnmal höher ist als bei der autonomen Fahrzeugführung, d. h. mindestens 1 Million Stunden anfangen.

Man kann sich vorstellen, wie man diese 1 Million Stunden an Daten sammeln kann. Und es müssen in echten Szenarien gesammelt werden.

Die Daten von Large Language Modellen stammen aus echten Textdaten der Menschen im Internet, die Daten der autonomen Fahrzeugführung stammen aus echten Fahrdaten der Menschen. Deshalb denken wir, dass die Embodied-Daten auch aus den Sinneswahrnehmungen und Verhaltensdaten der Menschen stammen sollten.

6. F: War das Datenerfassungsgerät in der gezeigten Videodarstellung ein Handschuh?

Chen Yilun: Ja. Wir haben ein neues Paradigma für die Human Centric (menschenzentrierte) Datenerfassung geschaffen. Wir glauben, dass die Embodied-Daten aus den echten Sinneswahrnehmungen und Verhaltensdaten der Menschen stammen sollten. Der Kern ist die "Hand" und das "Auge", um "zu sehen, was der Mensch sieht, und zu fühlen, was der Mensch fühlt". Dieses eigenentwickelte Handschuh- und Panoramakamera-System ist komplexer als die auf dem Markt verfügbaren Lösungen und kann die Position und die Tastempfindungsgewichtung der Hand hochauflösend wiedergeben. Selbst wenn Sie den Handschuh in die Decke legen, weiß ich, wo er ist.

Als wir früher an Lidar-Systemen für die autonome Fahrzeugführung arbeiteten, war die Messgenauigkeit auf Zentimeter-Ebene. Aber für die Roboter-Manipulation reicht die Zentimeter-Ebene bei weitem nicht aus - es muss auf Millimeter-Ebene oder sogar höher sein.

7. F: Gibt es Gemeinsamkeiten zwischen der autonomen Fahrzeugführung und dem Bereich der Embodied Intelligence? Die Ansichten der verschiedenen Unternehmer in dieser Frage unterscheiden sich stark. Was denken Sie dazu?

Chen Yilun: Die autonome Fahrzeugführung ist ein zehnjähriger Wettlauf. Teams mit unterschiedlichem Hintergrund haben in verschiedenen Zeiträumen in den Wettlauf der autonomen Fahrzeugführung eingetreten, daher sehen sie auch sehr unterschiedliche Dinge.

Nach meiner Ansicht sind die Probleme und Herausforderungen, denen wir im Bereich der AI begegnen, fast genau dieselben wie zu Beginn meiner Arbeit an der autonomen Fahrzeugführung, und man kann eine Entsprechung finden.

Wir teilen die Embodied Intelligence in drei Phasen von je drei Jahren auf. Die ersten drei Jahre sind möglicherweise hauptsächlich für die Demo-Präsentation. Wir sind in die zweite Phase eingetreten, d. h. der Prozess, die aufsehenerregende Technologie tatsächlich in die Produktentwicklung umzusetzen. Die größte Stärke unseres Teams ist, dass wir den gesamten Engineering-Prozess der autonomen Fahrzeugführung miterlebt haben.

Wir haben früher die Probleme der Benutzer wie Schneeflocken bekommen. Wie kann man so viele Probleme der Benutzer lösen? Wie kann man die Daten kombinieren? Wie kann man trainieren? Und wie kann man die Verbindung zwischen Daten und Modell herstellen? Wie kann man den gesamten Daten-Closed-Loop aufbauen? Tatsächlich hat unser gesamtes Team diesen Problemen ausgesetzt und sich daran bewährt.

Deshalb sind wir zuversichtlich, dass wir den gesamten Engineering-Prozess von

Dieser Artikel wurde ursprünglich von「王欣喜」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Das geheime Embodied-Team, das 1,7 Milliarden Yuan in der Angel-Runde finanziert hat, beantwortet 11 Schlüsselfragen.