"Xingdong Era" veröffentlicht das End-to-End-nativ Roboter-Großmodell ERA-42, die erste fünf Finger geschickte Hand, die über hundert Aufgaben bewältigen kann|Frontline
Autor|Huang Nan
Redaktion|Yuan Silai
Laut Yingke hat Xingdong Era kürzlich das End-to-End-natürliche Robotermodell ERA-42 veröffentlicht. In Kombination mit der selbst entwickelten Fünf-Finger-Geschicklichkeitshand Xingdong XHAND1 wurde erstmals erreicht, dass ein einziges verkörpertes Großmodell ausreicht, um die Fünf-Finger-Geschicklichkeitshand mit einer Vielzahl von Werkzeugen zu betreiben und mehr als 100 komplexe Feinarbeiten auszuführen; Dazu gehören das Aufnehmen und Anziehen von Schrauben mit einem Bohrer, das Hämmern von Nägeln sowie das Aufrichten eines Wasserglases und das Eingießen von Wasser.
Basierend auf ERA-42 kann Xingdong XHAND1 neue Aufgaben mit verschiedenen Werkzeugen ausführen
Bezüglich der Generalität und Geschicklichkeitsoperationen benötigt ERA-42 keinerlei Programmierfähigkeiten. Es zeichnet sich durch starke Generalisierung und Anpassungsfähigkeit aus. Basierend auf einer geringen Datenerfassung kann es neue Aufgaben in weniger als 2 Stunden erlernen und kontinuierlich schnell weitere neue Fähigkeiten erlernen.
Basierend auf ERA-42 kann Xingdong XHAND1 über 100 detaillierte und intelligente Fünf-Finger-Geschicklichkeitshand-Arbeiten ausführen
Xingdong Era weist darauf hin, dass verkörperte Großmodelle als Schlüssel zur Erschließung allgemeiner verkörperter Agenten die folgenden drei Elemente enthalten müssen. Erstens: Ein Modell zur Generalisierung verschiedener Aufgaben und Umgebungen vereinheitlichen; durch den Aufbau eines einheitlichen nativen Modells, das visuelle, sprachliche, taktile und körperliche Haltungsinformationen integriert, um die Fähigkeit zur Generalisierung bei unterschiedlichen Aufgaben und Umgebungen zu erreichen.
Zweitens End-to-End: Von der Erfassung multimodaler Daten bis hin zur Generierung finaler Ausgaben wie Entscheidungen und Aktionen, erfolgt alles über ein einfaches neuronales Netwerk. Dieser Prozess erfordert keine manuelle Merkmalskonstruktion, Vorausprogrammierung oder Eingriffsschritte, was es dem verkörperten Agenten ermöglicht, sich in Echtzeit an verschiedene Aufgaben und Umgebungen anzupassen und die Flexibilität und Entwicklungseffizienz erheblich zu verbessern.
Drittens Skalierung: Das Modell kann sich durch kontinuierliche Datensammlung selbst verbessern, wodurch mit exponentiell wachsender Datenmenge sowohl die Leistung gesteigert als auch in unbekannten Aufgaben außergewöhnliche Anpassungs- und Generalisierungsfähigkeiten gezeigt werden. Das von Physical Intelligence (abgekürzt PI) herausgegebene Model π0 beinhaltet z. B. die oben genannten Elemente und ist ein typisches End-to-End-verkörpertes Großmodell im wahrsten Sinne des Wortes.
Basierend auf dem End-to-End-Algorithmus verwendet Xingdong Era eine groß angelegte Videodaten-Lernstrategie, die unkommentierte Videodaten, Daten verschiedener Roboterformen, menschliche Aktivitätsdaten und Teleoperationsdaten umfasst, um auf der Grundlage der oben genannten Daten Lernergebnisse zu erzielen, die die Kosten der Datenerfassung effektiv senken können.
Xingdong Era erforscht die Integration von Weltmodellen in native Robotermodelle
Darüber hinaus hat das Team von Xingdong Era das Weltmodell in das natürliche Robotermodell integriert, sodass das Modell nicht nur Handlungsfähigkeiten besitzt, sondern auch die Fähigkeit zur Wahrnehmung der physischen Welt. Es kann künftige Bewegungspfade vorhersagen, schnell auf äußere Störungen reagieren und während der Ausführung von Aufgaben kontinuierlich das Verhalten anpassen und optimieren, bis die Aufgabe abgeschlossen ist. Dies erhöht die Effizienz und Genauigkeit der Roboteroperationen.
In praktischen Anwendungen können, im Vergleich zu herkömmlichen Greifroboter, die von ERA-42 betriebene Fünf-Finger-Geschicklichkeitshand Xingdong XHAND1 verschiedene Werkzeuge verwenden, um allgemeinere und komplexere Geschicklichkeitsaufgaben auszuführen. Beispielsweise kann ERA-42, nach der Ausbildung mit einfachen Daten über das Greifen von farbigen Blöcken, erfolgreich eine Generalisierung des Greifens von bisher unbekannten, vielfältigen Objekten erreichen.
Basierend auf ERA-42 kann die Fünf-Finger-Geschicklichkeitshand Xingdong XHAND1 im Vergleich zu Greifrobotern mehr verschiedene Werkzeuge für geschickt Handlungen verwenden
Wird ERA-42 mit Einzelaufgaben oder Aufgaben mit langer Sequenz konfrontiert, zeigt es eine starke Interferenzresistenz. Tests zeigen, dass mit zunehmender Modellgröße die Erfolgsquote der Aufgaben erheblich steigt, was erste Anzeichen für einen dem Large Language Modell ähnlichen "Skalierungseffekt" aufweist.
Im Bereich der Hardware hat Xingdong Era eine neue Hardwareplattform eingeführt, die für AI entwickelt wurde, um allgemeine verkörperte Agenten zu konstruieren. Zum Beispiel hat Xingdong XHAND1 insgesamt 12 aktive Freiheitsgrade und verwendet eine reine elektrische Antriebsform, um den vollautonomen Antrieb der Fünf-Finger-Flexionsgelenke zu realisieren. Jeder Finger ist mit einem hochauflösenden taktilen Arraysensor ausgestattet, der präzise dreidimensionale Kraft-Tastsinn- und Temperaturinformationen bereitstellt.
Dank ERA-42 wird die Generalität und Generalisierungsfähigkeit von Xingdong Eras allgemeinen humanoiden Robotern bei der Ausführung von Aufgaben erheblich gesteigert. In Kombination mit früher veröffentlichter Bewegungseffizienz in komplexen und vielfältigen Gelände, sowie der Fähigkeit zur synchronisierten Arbeit von Ober- und Unterkörpern, werden potenzielle Anwendungsszenarien noch vielfältiger und bringen damit die industrielle Implementierung eines nativen allgemeinen Inkarnationsagenten näher.
Xingdong XHAND1