StartseiteArtikel

Wir haben die "Datenfabrik" von Zhiyuan Robotics besucht. Moment mal! Ist das nicht der Drehort von "Star Wars"?

田哲2025-01-22 19:29
Roboter könnten hier vielleicht ihren eigenen "GPT-Moment" erleben.

Text | Tian Zhe

Redaktion | Su Jianxun

Anfang 2025 haben wir etwas erfahren: Das inländische Unternehmen für inkorporierte Intelligenz "Zhi Yuan Robot" (die Firma, bei der der bekannte Bilibili-Nutzer "Zhihui Jun" als CTO arbeitet) hat in Shanghai eine "Daten-Sammlungsfabrik" (kurz "Datenfabrik") errichtet.

Was ist das? Warum wurde es gebaut? Wie wird gesammelt? Eine Reihe von Fragen überkam uns, und wir beschlossen, es uns anzusehen.

Naturgemäß hatten wir vor unserem Besuch sehr stereotype Vorstellungen vom Arbeitsablauf in einer "Datenfabrik" - in einem dunklen Raum voller Server-Blackboxes sitzen Programmierer mit Augenringen und schütterem Haar, die mechanisch Code eintippen...

Falsch, falsch, falsch! Als "Intelligente Emergenz" die Datenfabrik von Zhi Yuan Robot in Shanghai Pudong erreichte, stellte sich heraus, dass die Realität völlig anders war als unsere Vorstellung!

Es ist kaum übertrieben zu sagen, dass es wie der Drehort eines US-amerikanischen Films wie "Star Wars" aussieht!

"Star Wars" Filmplakat; Bildquelle: Internet

In dieser 3000 Quadratmeter großen Datenfabrik nehmen Räume zu verschiedenen Themen den Großteil der Fläche ein, und jeder Raum stellt die Anordnung der Objekte aus dem realen Leben gewissenhaft nach, damit Roboter in unterschiedlichen Szenarien verschiedene Aufgaben ausführen können.

Im Schlafzimmer lernt der Roboter brav, wie man Kleidung faltet.

Roboter lernt, Kleidung zu falten; Bildquelle: Zhi Yuan Robot

Vor dem Tisch arrangiert der Roboter sorgfältig das Besteck.

Roboter platziert Geschirr; Bildquelle: "Intelligente Emergenz" Aufnahme

Der Roboter muss auch lernen, verschiedene Gerichte zu servieren, ohne die Hände zittern zu lassen.

Roboter schöpft mit einem Löffel ein Ei; Bildquelle: "Intelligente Emergenz" Aufnahme

Und an der Kasse eines Supermarktes hält der Roboter in der einen Hand einen Scanner und scannt mit der anderen Hand die Waren.

Zhi Yuan Robot lernt, Waren zu scannen; Bildquelle: "Intelligente Emergenz" Aufnahme

Nach dem Besuch traf "Intelligente Emergenz" den Leiter der Datenfabrik, Yao Maoqing, der gleichzeitig Präsident der Inkorporierten Produktlinie sowie geschäftsführender Direktor des Forschungsinstituts bei Zhi Yuan Robot ist und für die datengetriebene Entwicklung von inkorporierten intelligenten Produkten verantwortlich ist.

Zuvor war Yao Maoqing bei Waymo und NIO für die Entwicklung von Wahrnehmungsalgorithmen und End-to-End-Großmodellen verantwortlich.

Yao Maoqing erzählte "Intelligente Emergenz", dass jede Aktion, die ein Roboter ausführt, einer Dateneinheit entspricht. Diese Daten werden über den Hauptrechner des Roboters in die Cloud hochgeladen, und das Team von Zhi Yuan Robot nutzt diese Daten, um das große Modell des Roboters zu trainieren, damit der Roboter eine Fertigkeit wirklich erlernen kann, wie z.B. Kaffee kochen oder Kleidung bügeln.

Um das Lernen von Fähigkeiten für Roboter zu beschleunigen, hat Zhi Yuan ihnen ein Eins-zu-eins-Unterrichtssystem mit Lehrern - den Datensammlern - zugeordnet. Diese sind junge, dynamische Menschen, die selbst eine gute Bewegungskoordination und standardisierte Aktionen benötigen, um dem Roboter das Ausführen von Handlungen beizubringen.

Die Datensammler steuern die Roboter mit tragbaren Geräten direkt, um Greif-, Halt- und Entladungsaktionen auszuführen. Manchmal setzen sie auch VR-Technologien ein, um eine genauere Nachahmung menschlicher Bewegungen durch den Roboter zu gewährleisten.

Es wird berichtet, dass in der Datenfabrik von Zhi Yuan mittlerweile fast hundert Roboter zum Einsatz kommen, die täglich 30.000 bis 50.000 Datenpunkte sammeln.

Um den Robotern das Erlernen möglichst vieler Fähigkeiten in unterschiedlichen Umgebungen zu erleichtern, simuliert die Datenfabrik von Zhi Yuan fünf Szenarien: Haushalt, Einzelhandel, Dienstleistungssektor, Gastronomie und Fabrik.

Hier findet man im Supermarkt nicht nur Snacks verschiedener Arten, sondern auch Wein und Zigaretten, und selbst die Preise für Obst und Gemüse sind ausgezeichnet.

Simulation eines Supermarkts durch Zhi Yuan Robot; Bildquelle: "Intelligente Emergenz" Aufnahme

Es gibt auch eine Gruppe von Robotern, die sich auf einzelne "Arbeitsplätze" verteilen und einfache Fähigkeiten wie das Zusammenlegen von Kleidung erlernen.

Roboter lernen verschiedene Fähigkeiten an ihren Arbeitsplätzen; Bildquelle: "Intelligente Emergenz" Aufnahme

Berichten zufolge wird die Fläche der Datenfabrik um weitere 1000 Quadratmeter vergrößert, wodurch mehr Szenarien hinzugefügt und auch individuelle Simulationsszenarien nach Kundenwunsch angeboten werden können.

Derzeit gibt es jedoch nur wenige Unternehmen in der Branche, die so vielfältige Szenarien für Roboter schaffen. Eine Frage taucht auf: Wie hat Zhi Yuan Robot das Vorhaben durchgesetzt, eine Datenfabrik zu errichten?

Schaffung einer Datenaufbereitungsstätte für inkorporierte intelligente Roboter

Für die meisten Start-ups ist es ein enormes Risiko, erhebliche Mittel für den Bau einer Fabrik zur Datensammlung aufzuwenden, aber Zhi Yuan Robot zögerte nicht und hat die Datenfabrik in etwas mehr als einem Monat aufgebaut.

Was Zhi Yuan Robot dazu motivierte, ohne Rücksicht auf hohe Kosten eine Datenfabrik zu errichten, ist die enorme Lücke im Angebot der vorhandenen Datenmenge in der Branche.

Im Juni 2024 entschied Zhi Yuan Robot, ein großes inkorporiertes Intelligenzmodell für Roboter zu entwickeln, was eine riesige Menge Daten zur Modellerstellung erfordert.

Yao Maoqing erklärte gegenüber "Intelligente Emergenz", dass ein Roboter mehrere Hundert Datenpunkte benötigt, um eine Fähigkeit zu erlernen, und diese Aktionen sind oft Langzeitaufgaben wie Kaffee kochen oder Kleidung bügeln.

Sie versuchten, offene Datenbanken in der Branche zu finden, stellten jedoch fest, dass es praktisch keine qualitativ hochwertigen und standardisierten Daten gab. Selbst wenn Millionen von Trainingsdatensätzen von echten Robotern in der Branche offengelegt wurden, waren diese Daten von unterschiedlichen Unternehmen und Robotertypen gesammelte Daten von schlechter Qualität und erfüllten nicht die Anforderungen von Zhi Yuan.

Yao Maoqing sagte, dass die Unterschiede in den Daten von verschiedenen Sensoren und Formen zu groß sind und die allgemeine Trainingswirkung beeinträchtigen könnten. Beispielsweise können die Daten eines sechsachsigen Roboters auf einem siebenachsigen Manipulator fast nicht wiederverwendet werden, wodurch standardisierte Daten erforderlich sind.

Und die Entscheidung von Zhi Yuan, eine Datenfabrik zu bauen, war ebenfalls einfach.

Yao Maoqing erklärte, dass Zhi Yuan Robot mehrere tausend Daten gesammelt hat, um Algorithmen zu trainieren, und obwohl die Roboter bestimmte Aufgaben erfolgreich ausführen konnten, fehlte es ihnen an Verallgemeinerbarkeit - wenn sich die Art der Gegenstände, ihre Farbe oder sogar die Beleuchtung änderte, wurde die Fähigkeit des Roboters, die gleiche Aktion erneut auszuführen, beeinträchtigt. Daher entschloss sich Zhi Yuan Robot, eine Fabrik zu errichten, um umfangreiche Daten zu sammeln.

Roboter in verschiedenen Räumen sammeln Daten; Bildquelle: "Intelligente Emergenz" Aufnahme

In Zukunft wird die Datenfabrik kontinuierlich Daten als Nährstoff für das Lernen der Roboter bereitstellen. Berichten zufolge hat die Datenfabrik von Zhi Yuan in rund zwei Monaten Betrieb über eine Million Datensätze von realen Maschinen gesammelt, wobei über tausend Sammelaufgaben ausgeführt wurden, von denen jede Hunderte von Daten beinhaltete, und einige besonders schwierige Langzeitaufgaben mehrere tausend.

"Bald werden wir über mehrere Millionen Daten verfügen," sagte Yao Maoqing lächelnd.

Erkundung des Scaling Law für Roboter

Nach der Sammlung von mehreren Zehntausend Daten von Roboterwiederholungen gewann Zhi Yuan Robot einige unerwartete Erkenntnisse: Roboter konnten die Menge des Wassertempos ohne Training nach Anweisung steuern; schon nach ein paar Dutzend Lehren konnten sie lernen, Hosen zu falten.

Genau das ist der Roboter, den Zhi Yuan anstrebt - ein Roboter, der menschliche Anweisungen und die Außenwelt selbstständig verstehen und sich an komplexe Umgebungen anpassen kann.

Zhi Yuan hofft, dass Roboter verschiedene Marken- und Modellkomponenten für Kaffeeautomaten austauschen können; Bildquelle: "Intelligente Emergenz" Aufnahme

In den letzten Jahrzehnten beruhte die Steuerung von Robotern oft auf vorgegebenen Regeln, indem Situationen und entsprechende Reaktionsweisen beschrieben wurden, sodass Roboter in bestimmten Situationen tätig werden. Allerdings sind die Situationen, auf die Roboter getroffen sind, vielfältig und unvorhersehbar, sodass es schwer ist, allein durch Vorabregeln alle Situationen zu bewältigen.

Mit dem Ausbruch der Anwendung großer Modelle bekamen Roboter vom kalten Körper eine Intelligenz, die die Welt und die Menschen verstehen kann. Und was Zhi Yuan Robot entwickelt, ist ein Roboter mit End-to-End-Großmodell, der stärkere allgemeine Fähigkeiten und schnellere Reaktionen hat.

Normalerweise besteht der Prozess vom Empfangen eines Befehls durch den Roboter bis zur Ausführung der Aktion aus drei Schritten: die Umgebung wahrnehmen, eine Entscheidung treffen und die Gliedmaßen steuern, um die Aufgabe auszuführen. Bei der Informationsübermittlung in dieser Kette kann es zu Verzerrungen kommen, was die Ausführung der Aktion durch den Roboter beeinträchtigen könnte.

Aber ein End-to-End-Großmodell benötigt keine modularen Komponenten und auch keine präzise Messung, ähnlich wie bei Menschen beim Überholen eines Autos, die nicht aussteigen und den Abstand zwischen den Autos messen, bevor sie überholen.

Der Entwurf eines Roboters mit End-to-End-Großmodell von Zhi Yuan Robot ist, dass der Roboter komplexe menschliche Anweisungen entgegennehmen kann, wie etwa das Herbeiholen eines Handys aus der Entfernung oder das Holen einer Tüte Chips aus dem Kühlschrank. Diese Anweisungen fordern nicht nur die Verständnisfähigkeit des Roboters heraus, sondern erfordern auch, dass der Roboter Gegenstände identifizieren und an den entsprechenden Ort bewegen, die Gegenstände entnehmen und zurückbringen kann.

Aber es ist nicht einfach, diesen Zustand zu erreichen. Yao Maoqing erklärte, dass es kontinuierlich erforderlich ist, das große Modell mit Daten zu füttern, und je größer die Datenmenge, desto mehr nähert sich die Modellleistung in bestimmten Szenarien der des Menschen an. Er schätzt, dass mehrere zehn Millionen bis 100 Millionen Datensätze erforderlich sind und das Scaling Law für Roboter noch nicht erreicht ist.

"Intelligente Emergenz" erfuhr, dass Roboter eine Kombination aus Hardware und Software benötigen, um schnellere technologische Fortschritte zu erzielen. In den USA sind die Hardwarekosten hoch, weshalb die meisten Robotik-Start-ups dort nur Algorithmen entwickeln. China verfügt über Vorteile in der Lieferkette, was die Kombination von Daten und eigener Hardware ermöglicht, wodurch Algorithmen, Hardware und Software schneller iterieren können.

Yao Maoqing ist überzeugt, dass der Fortschritt der Robotertechnologie in China mittlerweile mit den USA auf Augenhöhe ist, da die Personalkosten in den USA zehnmal höher sind als im Inland und die USA außerdem auf den Import von Komponenten aus China angewiesen ist.

Zhi Yuan Robot hat mit geringeren Kosten und einer schnelleren Iterationsgeschwindigkeit die Skalierung der Szenariosimulation und Datensammlung erweitert. Technologien, die für amerikanische Roboterfirmen "unerreichbar" schienen, nähern sich in Chinas Datenfabriken schrittweise der Realität an.