Eine Robot-Hackathon lässt die Lücken und Chancen der Embodied Intelligence zugleich sichtbar werden.
Letzte Woche montag habe ich an einem Robot - Hackathon in Shenzhen teilgenommen.
Als ich um neun Uhr am Vortag ankam, dachte ich, ich wäre einer von den wenigen, die noch arbeiteten. Als ich den Veranstaltungsort betrat, sah ich, dass die Lichter noch an waren und Reihen von Zelten auf dem Boden aufgestellt waren. Die Roboterarme arbeiteten nicht aufhören, und die Teilnehmer standen um die Arbeitsplätze herum, um Daten zu sammeln, Modelle zu trainieren und die Bewertungsergebnisse zu beobachten. Manche waren so müde, dass sie sich am Rand kurz ausruhten und dann weiterarbeiteten.
Es geht auf dem Veranstaltungsort ein Sprichwort: "Ich kann Pause machen, aber die Grafikkarte darf nicht ruhen."
Dies ist bisher einer der größten weltweiten Offline - Wettbewerbe für Embodied - Intelligence - Entwickler.
Autonomous Variable hat allen teilnehmenden Teams kostenlose hochwertige Datensätze und entsprechende Datenerfassungsgeräte zur Verfügung gestellt und eine Trainingsumgebung, eine leistungsstarke Zweiarm - Bedienplattform sowie Rechenressourcen bereitgestellt.
Die teilnehmenden Teams können in drei Tagen den gesamten Zyklus von der Datenerfassung über das Modelltraining bis zur Real - Robot - Implementierung abschließen. Normalerweise braucht ein professionelles Forschungslabor mindestens sechs Monate, um eine ähnliche Einrichtung aufzubauen.
Die Veranstalter haben aus einer Vielzahl von Kandidatenaufgaben vier Kernfähigkeiten ausgewählt: Greifen und Platzieren, Sprachverständnis, feine Manipulation und Langzeitsequenz - Entscheidung. Im Wettbewerb können die Teilnehmer Aufgaben wie Ringwerfen, Fruchtklassifizierung nach Anweisungen, Steckern des Stromkabels, Wortschreiben usw. bearbeiten. Die Endnote hängt nicht nur davon ab, ob die Schritte abgeschlossen wurden, sondern auch von der Erfolgsrate, der Stabilität und der Generalisierungsleistung.
Dieser auf nur drei Tage extrem komprimierte Wettbewerb lässt die Lücken und Chancen in der Embodied - Intelligence - Branche zugleich sichtbar werden.
Drei Tage, zwei Studenten, und schon können sie ein Video - Demo wie in einer wissenschaftlichen Publikation erstellen
Was bedeuten drei Tage?
Nach dem Rhythmus der wissenschaftlichen Forschung dauert es normalerweise Jahre, bis eine Publikation von der Experimentierung bis zur Veröffentlichung fertiggestellt wird.
Aber wenn man nur die Leistung bei einer bestimmten Aufgabe betrachtet - viele Teams, die aus Studenten der 2000er - Generation bestehen, können mit den Rechenressourcen, Daten und Basismodellen, die von Autonomous Variable zur Verfügung gestellt werden, in nur zwei Tagen einen Roboter dazu bringen, Aufgaben wie "pick - and - place" zu erledigen, die in wissenschaftlichen Publikationen und Demo - Videos häufig vorkommen, und ein "aussichtsreiches" Demo erstellen.
Das ist der bemerkenswerteste Aspekt dieses Hackathons: Drei Tage ist sowohl eine aufregende Zahl als auch eine Zahl, die leicht zu Täuschungen führt.
Schauen wir uns zunächst den aufregenden Aspekt an.
Das Regelwerk dieses Hackathons von Autonomous Variable besteht aus zwei Phasen: der A - Liste und der B - Liste. Die Aufgaben der A - Liste sind öffentlich, und die Teilnehmer können sich um ein klares Ziel herum trainieren und optimieren; bei der B - Liste werden die konkreten Aufgaben und die Datenverteilung nicht im Voraus bekannt gegeben, und es wird stärker die Generalisierungsfähigkeit des Modells in einer realen Umgebung geprüft.
In den ersten zwei Tagen des Wettbewerbs konzentrierten sich die Teilnehmer hauptsächlich auf die Aufgaben der A - Liste, wie Ringwerfen, Fruchtklassifizierung nach Anweisungen, Steckern des Stromkabels, Wortschreiben usw. Die Bedienungsanforderungen und die KPIs dieser Aufgaben sind sehr klar. Nehmen wir die "Fruchtklassifizierung nach Anweisungen" als Beispiel: Die Fruchtarten sind festgelegt, und die Greif - und Platzierungspunkte sind auch im Wesentlichen fest. Das Modell kann sich um eine relativ stabile Bedingung herum wiederholt trainieren, sodass die Punktzahl in kurzer Zeit schnell steigen kann.
Gan Ruyi, der Algorithmen - Partner von Autonomous Variable, sagte, dass am ersten Tag des Wettbewerbs die Ergebnisse allgemein nicht hoch waren. Die Erfolgsrate bei der Ringwurf - Aufgabe lag meist zwischen 20 % und 70 %; aber am zweiten Tag hatten viele Teams schnell herausgefunden, in welchem Bereich sie sich am besten auskennen, und begannen, sich darauf zu konzentrieren und zu optimieren. Einige Teams hatten sogar eine deutliche Überanpassung bei einer einzigen Aufgabe, und die Erfolgsrate näherte sich 100 %.
Was bedeutet das?
Es bedeutet, dass in der heutigen Embodied - Intelligence - Branche es nicht mehr so weit weg ist, wie viele Menschen denken, ein Modell schnell so einzustellen, dass es eine bestimmte Aufgabe erledigen kann. Für Anbieter von Lösungen und Produktionsbetriebe ist dies sicherlich ein Signal, das das Vertrauen stärken kann. In der Vergangenheit bedeutete es für Industrieroboter, eine Aufgabe zu wechseln, oft eine lange Vorprogrammierung, Simulation, technische Einstellung und Abstimmung vor Ort; aber jetzt, wenn die Anpassungszeit für bestimmte Aufgaben tatsächlich auf ein paar Tage reduziert werden kann, auch wenn dies noch lange nicht bedeutet, dass es "universell" ist, reicht es aus, um die Erwartungen vieler Menschen an die Einführung von Robotern in die Fabrik und die Übernahme konkreter Arbeiten zu verändern.
Aber genau hier liegt das Problem.
Dass eine Aufgabe in wenigen Tagen schnell erledigt werden kann, bedeutet nicht, dass die Generalisierungsfähigkeit des Modells verbessert wird.
Genau dann, als die Ergebnisse der A - Liste schnell stiegen und einige Teams sich einem vollen Punktestand näherten, hat Autonomous Variable die versteckte B - Liste herausgegeben.
Wenn die Aufgabe nicht mehr bekannt ist, zeigt sich schnell die Begrenzung des Modells, das für ein einzelnes Ziel optimiert wurde.
Yuan Haokuan, ein Teilnehmer aus der Nanjing University of Posts and Telecommunications, der bei diesem Wettbewerb den dritten Platz belegte, sagte gegenüber InfoQ, dass sie die Aufgabe "Fruchtklassifizierung nach Anweisungen" gewählt hatten. In der Phase der B - Liste wurden nicht nur neue Fruchtarten hinzugefügt, sondern auch Störfaktoren eingeführt, und die räumliche Struktur des Greifens und Platzierens wurde geändert. "Die Feinabstimmung, die wir für die A - Liste vorgenommen hatten, war praktisch nicht mehr anwendbar. Wir mussten zum Basismodell zurückkehren und neuere, vielfältigere Daten von echten Robotern sammeln."
Sie haben vor Ort etwa 30 Datensätze mit zufälliger Anordnung nachgeholt und etwa eine Stunde lang, insgesamt etwa 10.000 Schritte, feinabgestimmt, aber das Ergebnis war immer noch unbefriedigend. Das Hauptproblem lag darin, dass die Datenmenge und die Vielfalt nicht ausreichten.
Dies ist nicht ein zufälliges Problem einiger Teams, sondern die gemeinsame Rückmeldung vieler Teams in der Phase der B - Liste. Es ist nicht allzu schwierig, eine hohe Punktzahl bei einer einzelnen Aufgabe zu erzielen, aber sobald die Aufgabe Generalisierungsanforderungen enthält, wie z. B. die Erhöhung der Fruchtarten oder die Änderung der Anordnung, hat das Modell Schwierigkeiten, stabil mitzukommen.
Bei diesem Hackathon habe ich zwei Dinge beobachtet.
Einerseits wird die Geschwindigkeit der Aufgabenanpassung tatsächlich schneller, und die Schwelle für die Einführung von Robotern in reale Szenarien wird gesenkt; andererseits können die Teams, die sich ernsthaft mit dem Basismodell befassen, von denen, die nur mit bestehenden Basismodellen und Aufgaben - Feinabstimmungen oberflächliche Ergebnisse erzielen, schneller unterschieden werden.
Ein Open - Source - Basismodell, zusammen mit einigen vor Ort gesammelten Daten und ein paar Rechenkarten, und eine kurze Feinabstimmung für eine bestimmte Aufgabe, können die Effekte in wissenschaftlichen Publikationen oder Werbevideos reproduzieren.
Dieser Ergebnis ist sicherlich nicht wertlos. Es zeigt, dass die bestehenden Basismodelle und Toolchains ausreichen, um bestimmte Aufgaben schnell zu realisieren; aber es sollte nicht missverstanden werden als "das Modell hat bereits universelle Fähigkeiten". Denn die Voraussetzung für solche Demos ist oft eine klare Aufgabe, eine feste Umgebung und begrenzte Variablen, nicht die kontinuierliche Anpassung in einer offenen Welt.
Was die Embodied - Unternehmen wirklich auseinander trennt, ist, wer ein stärkeres Basismodell hat und wer in der Lage ist, bei sich ändernden Aufgaben, Umgebungen und kontinuierlicher Ausführung stabil zu bleiben.
Das heißt, der Abstand zwischen den Teams, die sich ernsthaft mit dem Basismodell befassen, und denen, die Überanpassungen betreiben, wird in Zukunft nur größer werden.
Wenn man von diesem Hackathon eine direkte Lehre ziehen kann, dann ist es: Heute kann man ein Modell nicht mehr nur daran messen, ob es ein schönes Demo mit einem echten Roboter hat, sondern ob es in einer echten Roboterumgebung den Druck mehrerer Aufgaben, unbekannter Aufgaben und kontinuierlicher Aufgaben aushalten kann.
Deshalb beginnen immer mehr chinesische Hersteller, ihre eigenen echten Roboter - Bewertungssysteme und Wettbewerbe zu organisieren. Yuanli Lingji hat den RoboChallenge, Zhiyuan hat den AgiBot World Challenge, und Autonomous Variable hat das ManipArena ins Leben gerufen. Der Konsens hinter diesen Veranstaltungen ist einfach: Wenn man das Modell nicht aus dem Demo - Bereich herausholt und es in einer echten Roboterumgebung mit mehreren Aufgaben und Einschränkungen wiederholt testet, wird die Branche leicht von den Demonstrationseffekten in die Irre geführt.
Natürlich ist es heute noch schwierig, viele Ranglisten absolut transparent zu gestalten. Um die Bedenken der Teilnehmer hinsichtlich des Datenschutzes zu reduzieren, verpflichten viele Bewertungssysteme die Teilnehmer nicht, das Modell zu offenlegen, und isolieren die Modelle über Schnittstellen, sodass die Modellparameter und der Code nicht direkt sichtbar sind.
Diese Anordnung hat ihre Realität, aber es bedeutet auch, dass die Branche noch ein reiferes Standardssystem braucht, um die "Fähigkeit, in einem Aufgaben - Ranking gut abzuschneiden" von der "echten Generalisierungsfähigkeit" zu unterscheiden.
In diesem Sinne sind die überangepassten Ergebnisse, die in zwei Tagen bei diesem Hackathon erzielt werden können, nicht nur ein Wettbewerbs - Phänomen, sondern eher eine Warnung: Die Branche sollte auf die Modellleistung aufmerksam werden und die Modellteams dazu zwingen, Ergebnisse zu liefern, die den Druck von echten Robotern und mehreren Aufgaben standhalten können.
Die Wahl von Autonomous Variable: Keine Ansammlung von auf bestimmte Szenarien zugeschnittenen Modellsystemen und technischen Patches für den schnellen Einsatz in vertikalen Szenarien
Die Lehren aus dem Wettbewerb bestätigen in gewissem Maße die eigene Strategie von Autonomous Variable.
Für viele teilnehmende Teams hat der Wettbewerb schnell ein Problem aufgedeckt: Nach - Training und Parameter - Feinabstimmung können einen Teil der Fähigkeiten verbessern, aber auf einem bestimmten Punkt ist es immer noch das Basismodell selbst, das die Obergrenze des Modells bestimmt.
Aufgrund dieser Einschätzung hat Autonomous Variable nicht die Szenarien gewählt, in denen die Effekte leichter durch technische Mittel optimiert werden können, sondern hat komplexere Umgebungen wie das Zuhause in den Vordergrund gestellt. Es hofft, in der realen Interaktion Daten zu sammeln und das Basismodell darauf basierend kontinuierlich zu verbessern.
Wang Hao, der CTO von Autonomous Variable, sagte in einem Gespräch mit Medien, darunter InfoQ, dass die Kernrichtung des Unternehmens darin besteht, "das Basismodell ständig weiterzuentwickeln". In seiner Ansicht kann das Team natürlich in verschiedenen Szenarien erkunden und die Fähigkeiten des Basismodells testen, um zu sehen, ob es in bestimmten Szenarien eine Massenanwendung finden kann; aber es muss sich an einer Sache zurückhalten, nämlich nicht zu viele auf bestimmte Szenarien zugeschnittene Modellsysteme und technische Patches hinzuzufügen, um den Roboter schneller in vertikalen Szenarien einsetzen zu können. Wenn man beispielsweise feststellt, dass es in der Sicht eine Blinde Zone gibt, fügt man ein kleines Sichtmodell hinzu, um dies zu detektieren und zu kompensieren. Diese Methode "kann in der kurzen Frist helfen, den Einsatz zu beschleunigen, aber in der langen Frist ist sie schädlich für die Verbesserung des Basismodells".
Dies ist nicht nur eine technische Einschätzung, sondern auch eine geschäftliche Einschätzung.
Betrachtet man die externen Partnerschaften, hat Autonomous Variable zwar auch Industriekunden, aber es setzt deutlich mehr Energie in Serviceumgebungen wie das Zuhause, Altenheime und Hotels ein.
Wang Hao verbirgt dies nicht. Er sagte uns, dass Autonomous Variable von der Produkt - und Geschäftsstrategie her möchte, dass die Roboter so bald wie möglich in großen Mengen eingesetzt werden und so früh wie möglich in geschäftliche Szenarien eintreten. Die Serviceumgebungen wie das Zuhause, Altenheime und Hotels sind wichtig, weil "diese Szenarien uns die Datenquelle bieten".
Außerdem hält Autonomous Variable das Zuhause für eine der komplexesten und offensten Umgebungen. Wenn man die Fähigkeiten in solch komplexen Szenarien verbessert und dann auf vertikalere Szenarien zurückgreift, ist dies im Wesentlichen ein Prozess, bei dem man zuerst die universellen Fähigkeiten entwickelt und dann auf spezifischere Szenarien "herunterskaliert": Wenn das Basismodell stark genug ist, sinken die zusätzlichen Anforderungen, die vertikale Szenarien an das Modell stellen.
Und die universellen Fähigkeiten hängen letztendlich von der Fähigkeit des Basismodells ab.
Deshalb beginnen die Embodied - Hersteller, ihre Ziele auf "Embodied - native" Modelle zu richten.
Betrachtet man die technische Umsetzung, hat sich in Bezug auf die aktuelle Mainstream - Lösung für das Embodied - Gehirn ein gewisser Konsens gebildet: Visuelle, sprachliche und höchstens taktile Modalitäten werden als Eingang genommen, von einem Large - Language - Modell verarbeitet und in Aktionen umgesetzt; das Weltmodell wird hauptsächlich zur Generierung von Simulationsdaten oder zum Aufbau der Umgebung verwendet.
Aber das Problem ist: Passt diese Architektur wirklich zur physischen Welt?
In Wang Haos Ansicht gibt es in der bisherigen Trainingsmethode einen typischen Irrtum: Die Daten der verschiedenen Modalitäten werden getrennt trainiert und dann miteinander abgeglichen; oder man macht die Sprache zuerst so generalisierbar wie möglich und lässt dann die visuelle Modalität sich an die Sprache anpassen. Diese Methode opfert oft die visuelle Fähigkeit, weil man davon ausgeht, dass die visuelle Modalität nur der Sprache dient. Aber in Embodied - Szenarien ist es nicht so. Die Sprache ist gut darin, makroskopische Absichten auszudrücken, aber es ist schwierig, eine Bewegung in einem Zentimeter - Raum und einer Sekunden - Zeitspanne genau zu beschreiben; während das Videomodell zwar auf Pixel - Ebene detailliert ist, aber möglicherweise nicht von Natur aus versteht, welche Berührungen, Bewegungen und Kollisionen in der Physik wichtiger sind.
Die neue Richtung, die Autonomous Variable vorgibt, besteht darin, das Weltmodell und das VLA in einem End - to - End - Framework enger zu integrieren und durch gemeinsames Modellieren die visuelle Modalität und die Aktionen in einem früheren Stadium abzugleichen, sodass die Vorhersage eher den physikalischen Gesetzen entspricht.
Dies bedeutet nicht, dass man auf das Large - Language - Modell verzichtet.
Wang Hao sagte gegenüber InfoQ, dass das Large - Language - Modell immer noch die Grundlage des Trainings ist, aber der entscheidende Unterschied liegt in der Neuordnung des Expressionsraums: "Das Large - Language - Modell als Trainingsgrundlage muss weiterhin verwendet werden, aber wir müssen die Sprache und die Aktionen in einen gemeinsamen Raum bringen, anstatt wie früher alle visuelle Modal