"Vater des Reinforcement Learning" Sutton und "Vater von Doom" Carmack schließen sich zusammen: Lassen Sie Roboter in der realen Welt "Spiele spielen"
Anfang 2026 ereignete sich in einem Einkaufszentrum in Chengdu ein Unfall: Ein humanoider Roboter, der gerade eine Show absolvierte, kollidierte versehentlich mit einem umstehenden alten Mann. Beide stürzten zu Boden, und der Mann wurde sofort ins Krankenhaus gebracht. Die Diagnose ergab einen Weichteilverletzung. Nach dem Vorfall äußerte sich Fu Sheng, der Vorsitzende von Cheetah Mobile, öffentlich dazu und sagte, dass dies nicht das erste Mal wäre, dass ein humanoider Roboter jemanden verletzte, und auch nicht das letzte. Mit den derzeitigen Fähigkeiten der Large Language Models sei es auch in den nächsten ein bis zwei Jahren schwierig, die Sicherheitsprobleme von humanoiden Robotern angemessen zu lösen.
Tatsächlich treten in der realen Welt ständig Probleme mit Robotern auf. Solche Vorfälle zeigen, dass die nahtlosen Demonstrationen in Laboren und auf Pressekonferenzen, sobald sie in die unvorhersehbare reale Welt gelangen, oft zu unvorhersehbaren Ergebnissen führen können.
Hinter all dem verbirgt sich ein tieferes Prinzip: Es ist ein völlig anderes Problem, ein KI-System in einem Simulator eine Aufgabe beizubringen, als es in der realen Welt stabil ausführen zu lassen. Der Unterschied ist oft größer, als man denkt.
Selbst bei derselben Algorithmus und derselben Aufgabe können die geringsten Unterschiede zwischen der Simulationsumgebung und der realen Welt (z. B. Lichtverhältnisse, Bodenreibung, Toleranzen im Roboterkörper) dazu führen, dass eine trainierte Strategie plötzlich versagt.
Während die Branche der humanoiden Roboter weiterhin Kosten für das Problem „kann sich aufrecht halten“ trägt, veröffentlichte ein Team unter der Leitung des legendären Programmierers John Carmack von Keen Technologies in Zusammenarbeit mit Forschern der Universität Alberta und dem Openmind-Institut eine Studie, die die Frage aus einer grundlegenderen Perspektive beantwortet: Ist es möglich, dass ein Reinforcement Learning-Algorithmus in der realen Welt ohne menschliche Überwachung und ohne die Erwartung, sofort erfolgreich zu sein, über einen langen Zeitraum kontinuierlich lernt?
Um diese Frage zu beantworten, haben sie ein System entwickelt, das speziell für das Spielen von Atari-Spielen konzipiert ist. Dieses System heißt Physical Atari.
Die Herausforderungen des Reinforcement Learnings in der realen Welt
Atari-Spielfilme sind in der KI-Community nicht unbekannt. Bereits 2013 lernte DeepMind mit einem Deep Reinforcement Learning-Algorithmus in einem Simulator, Atari-Spielfilme zu spielen. Dies gilt als einer der markanten Momente im Aufstieg des Deep Reinforcement Learnings. Seitdem haben auch eine Reihe von klassischen Algorithmen wie Rainbow und MuZero Atari-Spielfilme als Standardtestumgebung genutzt. Alle diese Testumgebungen waren jedoch Simulatoren: Die Spielwelt wartet geduldig, bis der Algorithmus eine Entscheidung trifft, bevor sie weitergeht.
In der realen Welt ist es ganz anders. Wenn Sie beispielsweise Auto fahren und plötzlich ein Hindernis auftaucht, fährt das Auto weiter, auch wenn Sie noch überlegen, ob Sie das Bremspedal drücken sollen. Die Welt wartet nicht auf Sie.
Die Studie bezeichnet diese Einstellung, dass die Welt nicht auf Sie wartet, als Realtime Reinforcement Learning und weist darauf hin, dass dies genau die Situation ist, in der sich Roboter befinden.
Derzeit gibt es hauptsächlich drei Ansätze, um KI in der Robotik zu trainieren:
Der erste Ansatz ist, im Simulator zu trainieren und dann auf einen echten Roboter zu übertragen. Dies ist auch die gängige Methode der meisten Hersteller von humanoiden Robotern. Die Unterschiede zwischen Simulator und realer Welt sind jedoch die Ursache für die Stürze, wie sie oben beschrieben wurden.
Der zweite Ansatz ist, durch ferngesteuerte Roboter von Menschen eine große Menge an Demonstrationsdaten zu sammeln und dann diese Daten offline zu trainieren.
Der dritte und am wenigsten genutzte Ansatz ist, dem Roboter direkt in der realen Welt beizubringen, während er arbeitet.
Der dritte Ansatz spart die Kosten für die Erstellung eines Simulators und die Anstellung von Personen zur Datensammlung und vermeidet auch das altbekannte Problem, dass der Simulator nicht mit der Realität übereinstimmt. Der Preis dafür ist jedoch, dass Sie einen Roboter benötigen, der langlebig, preiswert und von normalen Forschern erschwinglich ist und auch über mehrere Wochen hinweg kontinuierlich und intensiv betrieben werden kann.
Physical Atari ist die Antwort auf diese Lücke.
Über das Team
Der erste Autor dieses Teams ist der Forscher Khurram Javed von Keen Technologies.
Auf der Autorenliste finden sich auch die Namen zweier Größen: John Carmack und Richard S. Sutton.
Carmack ist Mitbegründer von id Software und hat an der Entwicklung bahnbrechender Spiele wie „Doom“ und „Quake“ mitgewirkt. Er ist für die Erfindung mehrerer 3D-Grafikalgorithmen bekannt, die in die Lehrbücher der Computergrafik aufgenommen wurden. Nach seiner Anstellung als CTO bei Oculus im Jahr 2013 hat er die Virtual Reality von einem Konzept zu einem serienmäßig hergestellten Produkt gemacht.
Im Jahr 2022 verließ er Oculus und gründete Keen Technologies, mit dem Ziel, sich auf die allgemeine Künstliche Intelligenz (AGI) zu konzentrieren.
Im darauffolgenden Jahr lud er Richard S. Sutton, einen der Gründerväter des Reinforcement Learnings und Professor an der Universität Alberta, zu Keen Technologies ein. Seitdem haben beide sich auf die Erforschung von Agenten konzentriert, die in der realen Welt kontinuierlich lernen und sich anpassen können.
Da Sutton selbst einer der Autoren dieser Studie ist, bedeutet dies, dass dieser Roboterarm nicht nur ein praktisches Projekt des Ingenieursteams ist, sondern auch die Einschätzung dieses Gründervaters des Reinforcement Learnings über die Frage, wie Agenten lernen sollten, widerspiegelt.
Physical Atari ist eine konkrete Umsetzung dieser Philosophie: Anstatt nur in Studien darüber zu spekulieren, wie Agenten in der Realität lernen sollten, sollten wir lieber die Hardware bauen und den Algorithmus tatsächlich laufen lassen.
Wie ein „Roboterarm“ zum Spielen gebaut wurde
Das gesamte System besteht eigentlich nur aus zwei Kernkomponenten. Eine Komponente heißt Atari Devbox, im Wesentlichen ein Raspberry Pi 5 in einem 3D-gedruckten Gehäuse, an das ein 5-Zoll-Bildschirm angeschlossen ist und auf dem der klassische Arcade Learning Environment-Simulator läuft. Dieser Simulator rendert die Atari-Spielfilme mit 60 Bildern pro Sekunde.
Die andere Komponente heißt Robotroller, ein speziell für das Drücken eines echten Joysticks konstruierter Roboterarm. Er berührt keine Schaltungen oder Codes, sondern greift einfach wie ein Mensch einen unveränderten Atari CX40+-Joystick und steuert über drei Servomotoren die Bewegung des Joysticks nach oben/unten, links/rechts sowie den Feuerknopf.
Eine Kamera nimmt das Spielbild auf dem Bildschirm auf. Ein Computer, auf dem der Reinforcement Learning-Algorithmus läuft, trifft basierend auf diesem Bild eine Entscheidung und sendet die Anweisung an den Robotroller, der diese Entscheidung in eine reale Handbewegung umsetzt.
Der Schlüssel dieser Designidee ist, dass die KI vollständig über die einfachste Form der menschlichen Interaktion, nämlich „Bildschirm betrachten und Joystick bewegen“, mit dem Spiel kommuniziert. Es gibt keine Hintertüren, und daher kann die Spielmechanik direkt wiederverwendet werden, ohne dass zusätzliche Simulationsschnittstellen erforderlich sind.
Trotz des scheinbar einfachen Designs geht die Studie ausführlich auf die Frage ein, wie man einen Roboterarm über mehrere Wochen hinweg funktionsfähig hält.
Die Forscher stießen zunächst auf das Problem, dass die Schrauben lockerten. Die Lösung bestand darin, ein Schraubensicherungsmittel zu verwenden. Dann stellten sie fest, dass die Kunststoffzahnräder in den Servomotoren verschlissen waren, und tauschten sie gegen Servomotoren mit Metallzahnrädern aus. Später fanden sie heraus, dass der Joystick selbst durch den Roboterarm beschädigt wurde. Die Ursache lag darin, dass die Bewegung der Motoren zu stark war und dem Joystick unnötige Belastungen auferlegte. Daher passte das Team die Steuerparameter an, um die Bewegungen sanfter zu gestalten.
Die interessanteste Reparatur war die Hinzufügung eines „High-Current-Reflex“-Mechanismus zu den Servomotoren. Sobald ein Motor einen Strom über einem festgelegten Schwellenwert aufweist (was normalerweise bedeutet, dass er blockiert oder an einen harten Anschlag stößt), stoppt das System ihn sofort, löst das Drehmoment und verriegelt es erneut. Dies ähnelt dem Sehnenreflex des menschlichen Körpers, der bei Überdehnung die Muskeln automatisch zusammenzieht, um zu verhindern, dass der Motor überlastet wird.
Dieser Mechanismus mag unbedeutend erscheinen, ist jedoch ein entscheidender Faktor, damit das gesamte System über mehrere Wochen hinweg ohne Ausfall betrieben werden kann.
Bezüglich des Belohnungssignals (Spielpunkte) hat das Team auch keine Netzwerkkabel oder Codes verwendet, um die Daten heimlich zu übertragen. Stattdessen lässt das Devbox-Bildschirm ein paar AprilTags anzeigen, die von der Kamera direkt gelesen werden, um festzustellen, ob die Punkte erhöht oder verringert werden.
Mit anderen Worten, die Art und Weise, wie dieser Roboter die Welt wahrnimmt, von der Bildaufnahme bis zur Punktzahl, erfolgt vollständig über einen einzigen Kanal, die Kamera. Dies unterscheidet sich nicht wesentlich von der Art und Weise, wie Menschen Spiele spielen.
Die Gesamtkosten für die Hardware wurden auf weniger als 1.000 US-Dollar begrenzt. Die erforderlichen Teile für den Robotroller (Servomotoren, Lager, Schrauben usw.) kosten etwa 400 US-Dollar. Die maßgeschneiderten Komponenten können mit einem normalen 3D-Drucker für Endverbraucher hergestellt werden, was etwa 12 Stunden dauert.
Ein echter Roboter spielte 145 Stunden lang Spiele
Die Forscher ließen das System fünf und eine halbe Stunden lang an sechs verschiedenen Spielen wie Pong, Seaquest, Ms Pacman, Assault, Asterix und Kangaroo lernen. Jedes Spiel wurde 4 bis 5 Mal wiederholt.
Insgesamt liefen diese Experimente fast 145 Stunden lang ohne menschliche Intervention. Niemand musste den Roboterarm aufrichten oder ihn neu starten. Der Roboterarm drückte selbst immer wieder auf den Joystick und lernte langsam, wie er die Spielpunkte erhöhen konnte.
Interessanter sind die Ergebnisse eines anderen Experiments: Die Forscher ließen zunächst einen Agenten sechs Stunden lang an einem Robotroller lernen. Anschließend wurden die trainierten Strategien sowohl auf den ursprünglichen Roboter als auch auf einen anderen Roboter, der nach demselben Plan gebaut wurde, übertragen und getestet.
Das Ergebnis war, dass auch wenn beide Roboter aus denselben Bauteilen und nach demselben Plan gebaut wurden, die Strategie auf dem „fremden Körper“ immer deutlich schlechter arbeitete.
In Pong, einem Spiel, das präzise Timing erfordert, war dieser Unterschied besonders deutlich: Die übertragene Strategie konnte die Richtung des Balles erkennen und den Schläger in die richtige Richtung bewegen, aber es fehlte immer ein wenig, um den Ball zu fangen. Selbst die geringsten Toleranzen zwischen Bauteilen desselben Typs waren ausreichend, um das zuvor präzise Timing zu stören.
Spielbilder von Pong und Kangaroo
Anschließend ließen die Forscher den Agenten auf dem „fremden Körper“ weiter l