Exklusives Interview mit Zhao Xing von Xinghaitu: Ein aufregender Demo ist nicht gleichbedeutend mit Generalisierungsfähigkeit. Der Ausgang des Wettbewerbs im Bereich Embodied AI hängt immer noch von der Datenmenge ab.
Text | Fu Chong
Redaktion | Su Jianxun
Bei der Menschenmenge auf der 2025 WRC (World Robot Conference) gab es zahlreiche aufregende Demo - Präsentationen. Doch inmitten der aufwendigen Robotershows stand auf der Messestandfläche von Xinghaitu, einem Unternehmen im Bereich Embodied Intelligence, ein Roboter still da und führte die Aufgabe des Bettbezugs aus.
Einige Zuschauer zeigten Verwirrung. Sie konnten nicht verstehen, warum eine für Menschen so einfache Aufgabe so aufwendig demonstriert werden musste.
„Das Bett bezuziehen ist eine langfristige Aufgabe, die viele Schwierigkeiten vereint. Sie fordert die Fähigkeiten des Roboters beim Umgang mit flexiblen Objekten, der Ganzkörpersteuerung des Modells usw. sowie die Generalisierbarkeit bei der Ordnung auf verschiedenen ungeordneten Bettdecken.“ sagte Zhao Xing, Chefscientist von Xinghaitu und Assistentprofessor an der Tsinghua Institute for Interdisciplinary Information, auf der Messe der Zeitschrift „Intelligent Emergence“.
Zu diesem Zeitpunkt warf der Mitarbeiter das Bettzeug in Unordnung, und ein Zuschauer gab den Befehl, das Bett zu bezuziehen. Sofort begann der Roboter mit seiner Arbeit.
Obwohl die Aufgabe scheinbar einfach war, nutzte der Roboter alle 23 Freiheitsgrade seines Körpers und absolvierte die Aufgabe in drei Schritten: Zuerst bewegte er sich mit seinem Fahrwerk an die optimale Arbeitsstelle. Dann hob und senkte oder neigte er seinen Körper, um die richtige Arbeitsposition einzunehmen. Schließlich griff er mit seiner Roboterhand das Bettzeug, zog es nach außen und glättete es.
Die drei Schritte beeinflussten sich gegenseitig: Wenn der Roboter am Anfang nicht an die richtige Stelle kam, konnte er das Bettzeug nicht greifen. Selbst wenn er an der richtigen Stelle war, musste er seinen Körper stark nach vorn neigen, wenn das Bettzeug in der Mitte des Bettes lag. Beim Greifen musste der Roboter, da das Bettzeug schwer war und nicht nur mit der Hand gezogen werden konnte, seinen ganzen Körper bewegen, um es glatt zu ziehen.
Hinter dieser Demonstration stand das neu veröffentlichte VLA (Vision - Language - Action) End - to - End Basis - Modell G0 von Xinghaitu.
Als Zhao Xing über die Gründe für das Training dieses Modells sprach, erklärte er uns, dass die kleinen Modelle, die Xinghaitu zuvor verwendet hatte, zwar für Demonstrationen geeignet waren, aber nicht gut für die massenhafte Anwendung. Um echte Generalisierungsfähigkeit zu erreichen, musste man ein großes Modell entwickeln.
Die Demo des Bettbezugs von Xinghaitu auf der WRC. Foto: Interviewer
Derzeit befindet sich Embodied Intelligence noch in der Phase der „Nicht - Konsens“. Das Scaling Law der Large Language Models wurde bereits bestätigt, was zeigt, dass eine Veränderung der Datenmenge zu einer qualitativen Veränderung der Modellfähigkeiten führt. Ob dieses Gesetz auch im Bereich der Robotik gelten kann, bleibt noch abzuwarten.
Das war der Grund, warum Zhao Xing in den letzten zehn Monaten seinen Hauptfokus auf das Datenengineering legte.
Das Datenengineering umfasst die Schulung und Prüfung der Datenerheber, die Fernbedienung echter Roboter zur Datenerhebung sowie die Datenhochladung, - reinigung und - annotierung. Es ist eine typische „schmutzige und anstrengende Arbeit“. Da noch kein standardisierter Prozess für diesen gesamten Workflow existiert, musste Zhao Xing oft die Rückmeldungen der ersten - Linien - Datenerheber bearbeiten. In den letzten zehn Monaten war seine Arbeitsbelastung sehr hoch.
Eine Person, die bei Xinghaitu arbeitet, sagte uns: „Herr Zhao ist unser Überstundenkamerad. Wir sehen ihn oft noch in der Nacht.“
Nach seiner Meinung ist ein Basis - Modell mit Generalisierungsfähigkeit untrennbar von einer soliden Datenerhebung und - reinigung an echten Robotern verbunden. Anstatt Zeit und Energie in „hübsche“ Demonstrationen zu investieren, sollte man sich lieber den grundlegenden Problemen von Embodied Intelligence stellen.
Mit der Veröffentlichung von G0 wird Xinghaitu bald einen 500 - Stunden - Datensatz von echten Robotern veröffentlichen, der in einer offenen Welt und realen Szenarien gesammelt wurde.
Zhao Xing hofft, dass durch die Veröffentlichung des Datensatzes ein hochwertiger Referenzdatensatz und ein Bewertungsstandard für die Embodied - Intelligence - Branche geschaffen werden können. So können verschiedene Teams ihre Algorithmen auf denselben Daten vergleichen und die Effektivität ihrer Modelle testen, was die technologische Entwicklung und Akkumulation fördern wird.
Zusätzlich kann die Veröffentlichung des Datensatzes die Entwicklungszeit von der Kaufphase bis zur Modellimplementierung erheblich verkürzen, die Kosten für die wiederholte Datenerhebung und - annotierung senken und Hochschulen, Institute und Unternehmen schneller in die Experimentier - und Iterationsphase bringen.
Im Juli 2025 berichtete die Zeitschrift „Intelligent Emergence“ exklusiv über die erfolgreichen strategischen Finanzierungen in den Runden A4 und A5 von Xinghaitu. Seit der A - Serie - Finanzierung im Jahr 2025 hat Xinghaitu bisher eine Finanzierung in Höhe von fast 1,5 Milliarden Yuan erreicht.
Während der WRC führten wir ein Interview mit Zhao Xing durch. Er teilte uns aus akademischer und industrieller Perspektive seine Ansichten zu aktuellen Themen wie der Generalisierungsfähigkeit von VLA und Weltmodellen. Der folgende Text ist aus dem Interview und wurde vom Autor bearbeitet.
Zhao Xing, Chefscientist von Xinghaitu und Assistentprofessor an der Tsinghua Institute for Interdisciplinary Information. Foto: Xinghaitu
Große Modelle sind die Grundlage für die Generalisierungsfähigkeit von Embodied Intelligence, aber hochwertige Daten sind noch wichtiger
Intelligent Emergence: Auf der WRC zeigte Xinghaitu eine Demo des Bettbezugs von einem Embodied - Intelligence - Roboter. Im Vergleich zu vielen aufregenden Robotershows auf der Messe wirkte diese Demo nicht so „aufregend“. Wie kam man überhaupt auf die Idee, diese Demo zu präsentieren?
Zhao Xing: Tatsächlich ist Xinghaitu nicht besonders gut darin, beeindruckende Demos zu machen. Wir möchten lieber die Fortschritte in der Intelligenz zeigen als spektakuläre Bewegungen.
Konkret hat Xinghaitu das Embodied Large - Model G0 von VLA trainiert und gleichzeitig einige technische Berichte verfasst. Dafür mussten wir an verschiedenen Orten Daten sammeln und Modelle optimieren. Das sind alles sehr solide Arbeiten.
Deshalb entschieden wir uns erst ein paar Wochen vor der Öffnung der WRC, die Bettbezugs - Demo zu machen. Denn das Bett bezuziehen ist eine Demo, die viele Schwierigkeiten vereint.
Bei der Präsentation der Demo gibt der Benutzer zunächst über die Fernseher - Oberfläche den Befehl, das Bett zu bezuziehen. Nachdem das Modell den Befehl erhalten hat, beobachtet, versteht und plant es seine Aufgabe. Während der Sprachplanung führt der Roboter die Aufgabe auch gleichzeitig aus.
Zu diesem Zeitpunkt steuert das Modell alle 23 Freiheitsgrade des Roboters, und die Bewegung wird in drei Schritten ausgeführt.
Im ersten Schritt bewegt sich der Roboter mit seinem Fahrwerk. Dann kann er seinen Körper heben, senken oder neigen. Schließlich manipuliert er das Objekt mit seiner Roboterhand.
Diese drei Bewegungen beeinflussen sich gegenseitig. Wenn der Roboter am Anfang nicht an die richtige Stelle kommt, kann er das Bettzeug nicht greifen. Wenn er an der richtigen Stelle ist, muss er seinen Körper stark nach vorn neigen, wenn das Bettzeug in der Mitte des Bettes liegt. Beim Greifen muss der Roboter, da das Bettzeug schwer ist und nicht nur mit der Hand gezogen werden kann, seinen ganzen Körper bewegen, um es glatt zu ziehen.
Also war diese Demo nicht sorgfältig geplant, aber sie ist anders als andere Präsentationen. Technisch gesehen ist die Ganzkörpersteuerung und die Manipulation von flexiblen Objekten schwierig, und sie zeigt die Fähigkeiten unseres VLA End - to - End Large - Models.
Intelligent Emergence: Wie hat sich das G0 - Modell bewährt? Welche Probleme hat es gelöst?
Zhao Xing: Basierend auf dem offenen Szenariodatensatz von Xinghaitu und unserem vorgeschlagenen dreistufigen VLA - Trainingsframework (Cross - Ontology Pre - Training, Single - Ontology Pre - Training, Post - Training) hat das G0 - Modell die PI 0 um etwa 20 % in den Durchschnittswerten übertroffen. (Anmerkung des Autors: PI 0 ist ein VLA - Modell für die Robotersteuerung, das von der amerikanischen Embodied - Intelligence - Firma Phisical Intelligence entwickelt wurde.)
Außerdem haben wir festgestellt, dass das Cross - Ontology Pre - Training auf der Grundlage von offenen Daten bei einfachen Tischaufgaben akzeptable Ergebnisse erzielt, aber bei komplexen Ganzkörperbewegungssteuerungsaufgaben nicht gut funktioniert.
Der offene Datensatz von Xinghaitu füllt diese Lücke. Nach der Verwendung dieses Datensatzes werden komplexe Ganzkörperbewegungsaufgaben besser ausgeführt. Dies verbessert die Effektivität des Cross - Ontology Pre - Trainings in der Branche.
Intelligent Emergence: Wie sah der Hintergrund für die Entwicklung des G0 - Modells aus?
Zhao Xing: Im Oktober letzten Jahres, ungefähr ein Jahr nach der Gründung von Xinghaitu, begann das Unternehmen, dieses Modell zu trainieren.
Aus unseren Erfahrungen in der Vergangenheit wissen wir, dass kleine Modelle zwar für Demonstrationen geeignet sind, aber für eine massenhafte Anwendung sehr schwierig zu nutzen sind. Deshalb möchten wir lieber ein großes Modell mit Generalisierungsfähigkeit entwickeln.
Intelligent Emergence: Welche spezifischen Schwierigkeiten gibt es bei der Generalisierungsfähigkeit von Modellen?
Zhao Xing: Es gibt drei Aspekte.
Erstens sind die zu manipulierenden Objekte unterschiedlich. Wenn man beispielsweise aus einer Obstschüssel greift, gibt es Trauben und Tomaten. Sie unterscheiden sich in Textur, Farbe und Weichheit, und selbst Objekte der gleichen Art können unterschiedliche Größen haben.
Zweitens gibt es Unterschiede in den Szenarien und Umgebungen. Selbst wenn es sich um die gleiche Milchshake handelt, kann die Generalisierungsfähigkeit beeinträchtigt werden, wenn sie in verschiedenen Läden hergestellt wird, weil die Umgebung anders gestaltet ist.
Außerdem gibt es Unterschiede in den konkreten Aufgaben und Bewegungen. Wenn man beispielsweise versucht, ein sehr dünnes Blatt Papier von einem Tisch zu greifen, ist es schwierig, es mit einem Griff zu nehmen. Man muss zuerst den Rand anheben und dann das Papier greifen. Diese Bewegung ist schwer mit Worten zu definieren.
Diese Probleme können von auf Programmierung basierenden Algorithmen noch nicht gut gelöst werden, und sie sind auch die Engpässe, die die breite Anwendung von Robotern in verschiedenen Szenarien behindern.
Für Menschen hingegen können diese Bewegungen unbewusst ausgeführt werden. Deshalb kann nur ein großes Modell diese Generalisierungsfähigkeit erreichen, und das ist der Grund, warum wir ein großes Modell entwickeln.
Intelligent Emergence: Das Scaling Law der Large Language Models besagt, dass eine Veränderung der Datenmenge zu einer qualitativen Veränderung der Modellfähigkeiten führt. Glauben Sie, dass dies auch für Embodied - Intelligence - Modelle zutrifft?
Zhao Xing: Die Language - Models haben bereits bewiesen, dass große Modelle und große Datenmengen eine gute Generalisierungsfähigkeit erreichen können. Ich denke, das ist das erste Prinzip von KI.
Aber im Bereich der Robotik haben wir Anzeichen von Generalisierungsfähigkeit beobachtet. Deshalb beschlossen wir Ende 2024, ein Embodied Large - Model zu entwickeln.
Ich glaube, dass ein Embodied - Intelligence - Modell ähnliche Fähigkeiten wie ein Language - Modell haben wird, wenn die drei Elemente Modellstruktur, Algorithmus und Daten zusammenkommen.
Unser G0 - Modell verwendet eine auf Transformer basierte Trainingsmethode. Obwohl die Menschen derzeit nicht ganz zufrieden mit der Transformer - Rahmenstruktur sind, denke ich auch, dass sich dies in Zukunft ändern wird. Aber kurzfristig ist ihre Anwendbarkeit immer noch die stärkste.
Es besteht die Möglichkeit, dass sich der Algorithmus ändert. Das hängt hauptsächlich von intelligenten Forschern ab. Ich denke, dass unser Team in dieser Hinsicht keine Probleme hat. Wir können eigene Algorithmen entwickeln oder die neuesten Fortschritte verfolgen.
Schließlich haben wir festgestellt, dass allen das Fehlen von Daten fehlt.
Zum Beispiel hat Sora die Menschen beeindruckt, aber man hat festgestellt, dass der Diffusion - Transformer - Algorithmus und das Modell, die von Sora verwendet werden, bereits existierten. Nur die Datenmenge war größer. Dies hat auch mehr Menschen davon überzeugt, dass Daten noch wichtiger sind.
Hochwertige Daten sind wichtig, und wir kümmern uns derzeit persönlich um das Datenengineering
Intelligent Emergence: Also war Ihr Schwerpunkt in den letzten zehn Monaten tatsächliche die Daten?
Zhao Xing: Ich denke schon. Mein Hauptaugenmerk lag auf der Förderung der Datenerhebung von hochwertigen Daten. Im Moment kann man keine fertigen Roboter - Daten kaufen.
Die Datenerhebung unterscheidet sich von der Forschung. Bei der Forschung, wie beispielsweise der Verbesserung von Algorithmen, braucht man einen intelligenten Verstand. Manchmal kann man in einer Woche keine Arbeit leisten, aber wenn man einen sehr guten Algorithmus findet, kann man gute Ergebnisse erzielen.
Aber die Datenerhebung ist eine sehr grundlegende Arbeit, die Geduld erfordert.
Die konkreten Arbeiten sind sehr vielfältig. Die Datenerheber bringen die Roboter in verschiedene Szenarien, um Daten zu sammeln. Aber zuerst müssen sie geschult und geprüft werden, um sicherzustellen, dass sie hochwertige Daten sammeln können.
Während der Datenerhebung muss ich auch viele Probleme lösen, wie beispielsweise plötzliche Störungen am Gerät oder im Netzwerk. Ich koordiniere auch diese Dinge. Nach der Datenerhebung gibt es noch die Datenhochladung, - reinigung und - annotierung.
Intelligent Emergence: Die Datenerhebung scheint eher eine grundlegende Arbeit zu sein, oder man könnte sie auch „schmutzige und anstrengende Arbeit“ nennen. Müssen Sie sich persönlich darum kümmern?
Zhao Xing: Die Teammitglieder sind sehr zuverlässig. Aber da das Feld der Embodied Intelligence noch sehr neu ist, gibt es noch keine Standard - Betriebsprozeduren, die ich ihnen geben könnte.
Wir wissen, dass die Branche der Datenannotierung in der Vergangenheit recht gut entwickelt war. Man konnte alle Daten an eine Auftragsdienstleisterfirma senden, die Zeit und die Genauigkeit festlegen und