Menschenähnliche Roboter, die nicht tanzen, versuchen tatsächlich "Arbeit" zu verrichten - Neue Perspektiven auf robotische Leistung

Humanoid-Roboter tauchen auf der Gala der Frühlingsfeier auf und werden auf mehreren Wegen umgesetzt.

Humanoid robots haben den Olympischen Wintersommer als neues Schlachtfeld ins Visier genommen. In der Aufregung hat die Stimme von "Wir brauchen keine 1 Million tanzende Roboter" auf dem Internet angefangen, sich zu verbreiten.

Humanoid robots haben den Olympischen Wintersommer als neues Schlachtfeld ins Visier genommen. Einheitsintelligenzunternehmen wie Unitree Robotics, Magic Atom, Galaxy Universal und Songyan Power haben kürzlich angekündigt, dass sie beim Olympischen Wintersommer auftreten werden. In der Aufregung hat die Stimme von "Wir brauchen keine 1 Million tanzende Roboter" auf dem Internet angefangen, sich zu verbreiten.

Tatsächlich beschleunigen die einzelnen Einheitsintelligenzunternehmen, während sie durch Darstellungsfähigkeiten wie Tanzen hohe Präsenz behalten, auch den Fortschritt der Humanoidroboter in reale Szenarien, um Aufgaben auszuführen. Nach einer gewissen Entwicklungszeit haben die einzelnen Unternehmen auf ihrem eigenen Weg stufenweise Ergebnisse erzielt.

Independent Variable Robotics, das Anfang des Jahres offiziell die Absolvierung einer 1 - Milliarden - Yuan - Finanzierung angekündigt hat, hat kürzlich ein Echtzeitvideo veröffentlicht, in dem sein Roboter auf der Grundlage des selbst entwickelten VLA - End - to - End - Modells der Firma eine vollständige selbstständige Lebensmittelzustellung erreicht hat.

Independent Variable Robotics ist eines der ersten Unternehmen, das sich auf den End - to - End - Einheitsgrossmodell - Technologieweg geeinigt hat. Der Kern dieses Technologiewegs besteht darin, dass Roboter in realen Umgebungen durch ein einheitliches Einheitsgrossmodell kontinuierliche Entscheidungen von der Wahrnehmung, der Argumentation bis zur Handlungsausführung treffen können. Wenn sich Humanoidroboter entlang dieses Technologiewegs entwickeln, werden sie in die endgültige Richtung der allgemeinen Arbeitskraft gehen.

Ein Brancheninsider hat jedoch einem Reporter von Star Market Daily gesagt, dass der End - to - End - Einheitsgrossmodell kein leichtgewichtiger oder hocheinerwarteter Technologieweg ist.

Einerseits hängt das Modelltraining stark von realen Interaktionsdaten ab, was es schwierig macht, den Verifizierungsprozess zu skalieren und zu replizieren. Darüber hinaus verstärkt das einheitliche Modell zwar die Integrität des Systems, es verstärkt aber auch die Komplexität des technischen Debuggings und der Anomalielokalisierung. Insbesondere in realen Szenarien müssen Roboter oft kontinuierliche Operationen über Umgebungen und lange Aufgabenketten hinweg ausführen, was extrem hohe Anforderungen an die Stabilität und die Fehlertoleranzfähigkeit des Modells stellt. "Dies bedeutet auch, dass Unternehmen, die sich für diesen Weg entscheiden, oft einen grösseren Investitionen in Geld und Ressourcen sowie eine längerfristige kommerzielle Umsetzung benötigen."

RoboSense hat ebenfalls die Fähigkeiten des Roboters im Zustellungsszenario demonstriert. In diesem 100 - Minuten - Video hat der Roboter kontinuierlich eine Reihe von fast 20 schrittweisen Betriebsaufgaben wie das Öffnen von Verpackungen, das Zusammenfalten von Recyclingbehältern, das Bewegen von Gegenständen, die Navigationsfähigkeit zwischen verschiedenen Szenarien und die Interaktion mit Aufzügen ohne menschliche Intervention abgeschlossen. Der Schlüssel bestand darin, die Stabilität und die Handlungskonsistenz während des langfristigen Betriebs zu verifizieren.

Hinter den ähnlichen Fertigkeiten liegt jedoch eine unterschiedliche technische Logik. Ein zuständiger Techniker von RoboSense hat einem Reporter von Star Market Daily gesagt, dass die Einheitsintelligenzlösung der Firma nicht der traditionelle VLA, sondern ein erweitertes VTLA - 3D auf dieser Grundlage ist. "Durch die Einführung von Informationen wie 3D - Punktwolken von Lidar und taktilen Empfindungen von dexteren Händen zusätzlich zu der Sicht wird das Verständnis des Modells für die räumliche Struktur und die physischen Beschränkungen verbessert."

Nach ihrer Ansicht hilft eine höherdichte Wahrnehmungseingabe, die Abhängigkeit von grossen Datenmengen während der Trainingsphase zu reduzieren. "Die Menge an effektiven Trainingsdaten, die das Modell benötigt, um die derzeit demonstrierte Fähigkeitsstufe zu erreichen, beträgt etwa 200 Stunden, und die Trainingskonvergenzgeschwindigkeit ist relativ schneller."

Sie haben weiter darauf hingewiesen, dass dieser Weg eng mit der langfristigen Akkumulation von RoboSense auf dem Gebiet des autonomen Fahrens zusammenhängt. "In der Praxis des autonomen Fahrens wurde festgestellt, dass im Vergleich zu der reinen Sichtwegsroute das Modell, das 3D - Punktwolken von Lidar und visuelle Informationen integriert, um eine Grössenordnung weniger Daten benötigt, um das gleiche Leistungsziel zu erreichen."

Brancheninsider haben gesagt, dass dies tatsächlich zwei gegenwärtige Wege für die Umsetzung der Einheitsintelligenz darstellt, nämlich: einer ist es, die Informationsdichte durch die Einführung von multimodaler Wahrnehmung wie Lidar und taktilen Sensoren zu verbessern, um das Ausmass der Trainingsdaten zu reduzieren und die Lösung des Problems der stabilen Ausführung in realen Umgebungen priorisiert zu behandeln; der andere hält sich an die reine Sichtwegsroute, verlässt sich auf grosse Datenmengen und Modellfähigkeiten und versucht, in der langen Frist die allgemeine Intelligenz über Szenarien hinweg zu erreichen.

Es kann einfach zusammengefasst werden, dass die multimodale Route die gegenwärtige Nutzbarkeit betont, während die reine Sichtwegsroute auf die langfristige Allgemeinheit setzt. Sie befassen sich mit Problemen in verschiedenen Stadien.

Im Gegensatz zu den oben genannten zwei Wegen, die auf Modellfähigkeiten zentriert sind, wird derzeit ein anderer Weg, der eher auf Technik und Lieferung ausgerichtet ist, vorangetrieben. Dieser Weg versucht nicht, das Problem der allgemeinen Intelligenz in der frühen Phase zu lösen. Stattdessen ermöglicht er es Roboter, durch die Zerlegung von Aufgabenregeln, die Kombination von modularen Fähigkeiten und ein starkes Steuersystem, Aufgaben innerhalb relativ klarer Aufgabengrenzen stabil auszuführen. Solche Unternehmen haben normalerweise eine starke technische Akkumulation auf dem Gebiet der Roboterkörper.

Unter dieser technischen Logik ist die Voraussetzung für einen Roboter, um "zu arbeiten", dass die Aufgabe vollständig strukturiert ist: welche Aktionen ausgeführt werden müssen, in welchem Umfeld er arbeitet und wie mit abnormalen Situationen umgegangen werden soll, werden alle während der Systementwurfsphase klar aufgeteilt und durch technische Mittel einzeln behandelt. Sein Vorteil liegt in der starken Steuerbarkeit und Systemstabilität, die in halbstrukturierten Szenarien wie der Industrie und der Inspektion schnell umgesetzt werden können. Es ist auch ein Weg mit relativ hoher Sicherheit in Bezug auf die gegenwärtigen Lieferungen und Auslieferungen.

Die entsprechenden Engpässe sind jedoch auch relativ klar. Da die Fähigkeiten stärker auf Regeln und technische Konfigurationen beruhen, hat dieser Weg eine begrenzte Anpassungsfähigkeit an Szenariänderungen. Sobald sich die Umgebung oder die Aufgabe erheblich ändert, müssen oft das Systemdebugging und die Anpassung neu durchgeführt werden, und die Erweiterungskosten steigen linear mit der Anzahl der Szenarien.

Aus einer makroindustriellen Perspektive ist die Differenzierung verschiedener Einheitsintelligenzunternehmen in ihren Wegen im Wesentlichen ein Versuch, mehrere reale Schwellen für die Massenanwendung von Humanoidrobotern auf verschiedene Weise zu überwinden. Viele Brancheninsider stimmen in Interviews allgemein darin überein, dass Humanoidroboter, um von der Demonstration zur Masseneinsetzung zu gelangen, zumindest gleichzeitig Probleme wie die sichere Koexistenz, den kontinuierlichen Betrieb, die dexteren Operationen und die Kostenkontrolle lösen müssen.

Bevor diese Beschränkungen systematisch überwunden werden, handeln die verschiedenen technischen Wege eher darum, schrittweise Fortschritte vor verschiedenen Schwellen zu machen: Einige setzen zuerst auf die allgemeine Intelligenz, andere lösen zuerst die technische Nutzbarkeit, und wieder andere erreichen eine stabile Lieferung durch die Aufgabenzerlegung. Dies bedeutet auch, dass Humanoidroboter in der kurzen Frist eher in reale Produktions - und Dienstleistungssysteme mit klaren Fähigkeitsgrenzen und Anwendungsfällen eintreten werden, anstatt in einem Schritt zur allgemeinen Arbeitskraft zu werden.

Vor dem Hintergrund des parallelen Vorantreibens von mehreren Wegen wird die Erwartung der Branche, "wann die wirkliche qualitative Veränderung eintreten wird", allmählich rationaler.

Pan Jing, ein Stellvertreter des Volkskongresses von Shanghai, hat in einem kürzlichen Interview mit Medien wie Cailian Press gesagt, dass China in Bezug auf die Integrität der Roboterreihe, die Herstellungsgrundlage und die Reichhaltigkeit der Anwendungsfälle einzigartige Vorteile hat. Es wird jedoch noch Zeit dauern, bis es bei Humanoidrobotern mit wirklich verallgemeinerten Fähigkeiten zu einem Durchbruch kommt. Er schätzt, dass es in den nächsten fünf Jahren Hoffnung auf einen stufenweisen Durchbruch bei den relevanten Kernfähigkeiten gibt.

Dieser Artikel stammt aus dem offiziellen WeChat - Account "Star Market Daily", Autor: Yang Xiaoxiao. Reproduziert von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Menschenähnliche Roboter, die nicht tanzen, versuchen, tatsächlich "Arbeit" zu verrichten.