Herausforderung an Boston Dynamics: Die Konkurrenz um humanoide Roboter hat in Silicon Valley eskaliert.
K-scale entspricht in etwa allen Vorstellungen, die man von einem Silicon Valley-Start-up hat. Unter der blendenden Sonne Nordkaliforniens versammeln sich junge Ingenieure in einer Garage. Mit schlaftrunkenem, aufgerauhtem Haar bewegen ihre Finger wie Blitz über die Tastatur, während Zeilen Code auf den Bildschirmen rasch voranscrollen.
Neben den Computerständern liegen zerstreut leere Bierdosen herum, die von der Teamfeier aus der Nacht zuvor übrig geblieben sind. Umher sind Roboterarme unordentlich aufgestapelt, 3D-Drucker laufen ununterbrochen, und Daten- und Ladekabel winden sich ineinander. In der Luft scheint der Duft von Lötzinn, Kaffee und Träumen zu liegen.
Plötzlich durchbricht die leicht heiser, aber extrem aufgeregte Stimme eines Ingenieurs das Getöse der Tastaturen: "Seid ihr bereit? Countdown: Drei, zwei, eins!"
Alle Blicke richten sich auf einen Roboter in der Mitte der Garage, der zuvor stumm und etwas matt wirkte. Wie durch einen unsichtbaren Befehl wird sein Kern aktiviert, und die Leuchtsignale auf dem Roboter leuchten plötzlich auf. Zuerst bewegt er unbeholfen seine "Arme", dann tastet er vorsichtig mit seinen "Beinen" aus. In der Atmosphäre der gespannten Erwartung setzt er wackelig, aber dennoch bestimmt seinen ersten Schritt, der in das Teamprotokoll eingeht. Obwohl seine Bewegungen noch kindisch wirken, ist dieser "kleine Schritt" für das K-scale Lab ein großer Schritt in Richtung Zukunft.
Diesen für Außenstehende so aufregenden Prozess wie beim Raketenstart nennen die Ingenieure "Deploy" (Einsatz). Das Wesen davon besteht darin, die Roboterbewegungen und Entscheidungsszenarien, die zuvor unzählige Male in der Software mithilfe des Verstärkungslern-Algorithmus simuliert und iteriert wurden, in den physischen Roboter zu "übertragen", damit er in der komplexen und sich ständig ändernden realen physischen Welt nahezu die gleichen Bewegungen wie in der Software-Simulation ausführen kann.
Das K-scale Lab, eine junge Kraft in der Welt der Silicon Valley-Roboter, die erst seit weniger als einem Jahr existiert, arbeitet in diesen wiederholten "Einsätzen" und Iterationen an ihrer großen Vision: die Schaffung einer echten Open-Source- und kostengünstigen Hardware-Software-Plattform für Roboter.
Entschlossener Anhänger des Verstärkungslern-Ansatzes
In der Luft von Silicon Valley weht die Welle der Künstlichen Intelligenz mit bisher unbekannter Stärke. Doch für Xu Rui, Mitbegründer und Chief Operating Officer des K-scale Lab, liegt die Zukunft nicht nur in den Algorithmen in der Cloud. Was er sich vorstellt und dafür kämpft, ist ein physischer Intelligenz-Agent, der tatsächlich in der physischen Welt operieren kann und sich wie ein Kind beim Laufen "unbeholfen" und "intelligent" weiterentwickelt. Die Grundlage dafür ist die fast fanatische Überzeugung von ihm und seinem Team an das "Verstärkungslernen" (Reinforcement Learning, RL).
"Wir nutzen zu 100 % und vollständig das Verstärkungslernen für die gesamte Bewegungskontrolle der Roboter." Xu Rui spricht mit unzweifelhafter Überzeugung. "Unser Team besteht derzeit aus neun Personen, und die meisten sind Ingenieure, die sich mit Verstärkungslernen befassen. Ich bin der einzige in der Firma, der nicht programmiert." Xu Rui lacht und sagt: "Das bedeutet aber auch, dass ich für alles außer Technologie und Engineering zuständig bin."
Dies ist nicht nur eine Wahl des technischen Ansatzes, sondern eher eine Einstellung auf der untersten philosophischen Ebene. Weltweit verwenden viele menschähnliche Roboterunternehmen immer noch die traditionelle Bewegungseplanung (Motion Planning), bei der jeder Schritt des Roboters durch ein präzises mathematisches Modell vorgegeben wird. Das Team des K-scale Lab hat jedoch einen völlig anderen, weniger befahrenen Weg gewählt.
"Wir verwenden keine traditionelle Bewegungskontrolle, sondern nur das Verstärkungslernen." Er erklärt, dass die traditionellen Methoden bei sich dynamisch ändernden Umgebungen, wie plötzlichen Böen oder unerwarteten Bodenunebenheiten, oft an ihre Grenzen stoßen und die Stabilität fehlt. Das Verstärkungslernen hingegen wird von ihnen als Hoffnungsträger für eine stärkere Generalisierungsfähigkeit angesehen.
Die Idee dieser Methode klingt zwar einfach, aber ihre Umsetzung ist äußerst schwierig. Stellen Sie sich vor, Sie lehren ein Baby gehen. Sie geben ihm keine Anweisungen, wie jede einzelne Muskelgruppe kontrahieren soll, sondern setzen ihm Ziele: nicht stürzen, vorwärts gehen, Beine abwechseln. Das Team des K-scale Lab macht ähnliches - es definiert eine "Belohnungsfunktion" (Reward Function) für den Roboter. "Zum Beispiel sagen wir, der Roboter darf nicht stürzen, seine Beine müssen abwechselnd vorwärts gehen, er darf nicht am selben Ort springen und muss mit einer bestimmten Geschwindigkeit vorwärts gehen." Der Roboter lernt dann in wiederholten Simulationen, wie er diese "Belohnungen" maximieren kann, indem er stürzt und wieder aufsteht, und schließlich "lernt" er, zu gehen.
Die Wahl des Verstärkungslernens hat auch einen tiefgreifenden Einfluss auf ihre Hardwareauswahl.
"Ich denke, dass das Hydrauliksystem sicherlich nicht die Zukunft ist, weil es das Verstärkungslernen nicht gut unterstützt." Xu Ruis Worte stellen implizit eine Herausforderung an Branchenpioniere wie Boston Dynamics dar, die für ihre hydraulisch angetriebenen Roboter bekannt sind.
In seiner Meinung sind elektrische Motoren, insbesondere die Gelenkmotoren, die von den Fortschritten in der Elektromobilität profitieren, derzeit die bessere Wahl.
"Warum sind menschähnliche Roboter jetzt wieder so populär? Genau wegen des Verstärkungslernens!" Er fragt rhetorisch und hebt den zentralen Treiber der technologischen Entwicklung hervor.
Wie viele beobachten, ist der Aufstieg des Robotergeschäfts auf drei Faktoren zurückzuführen: Die auf der Transformer-Architektur basierenden Large Language Models (LLM) und multimodalen Modelle haben die Welt von den erstaunlichen Potenzialen der allgemeinen Künstlichen Intelligenz überzeugt und auch die Möglichkeit eröffnet, Robotern eine stärkere Entscheidungsfähigkeit zu verleihen. Zweitens ist die Hardware-Industrie kohlestufe reif geworden. Dank der raschen Entwicklung der Elektromobilitätsindustrie sinken die Kosten für Hochleistungs-Servomotoren, Sensoren und Batterietechnologie ständig, was die Herstellung flexiblerer und effizienterer Roboter ermöglicht. Schließlich ist das Kapital auf der Jagd. Nachdem es die großen Erfolge der generativen Künstlichen Intelligenz, wie von OpenAI repräsentiert, gesehen hat, richtet es seinen Blick von reinen Algorithmen der allgemeinen Künstlichen Intelligenz hin zu "Hardcore-Technologien", die tief in die physische Welt eingreifen können.
Die "Geek"-Pioniertruppe: Menschenähnliche Roboter in die Häuser von Enthusiasten bringen
Wer sind die ersten Benutzer eines so fortschrittlichen Roboters, der fast vollständig auf "Selbstlernen" basiert? Überraschenderweise sind es weder die Fabrikbänder, wie man es normalerweise annimmt, noch hochrangige Forschungseinrichtungen oder normale Haushaltsverbraucher. Das erste große menschähnliche Roboterprodukt, das das Team des K-scale Lab mit viel Liebe zum Detail entwickelt hat, hat 24 Freiheitsgrade und wird für weniger als 10.000 US-Dollar angeboten. Seine Zielgruppe sind die begeisterten "Geeks" (Enthusiasten) auf dem US-Markt.
"Wir möchten, dass dieses Produkt zunächst an echte Enthusiasten verkauft wird, damit sie es zu Hause ausprobieren und experimentieren können." Xu Rui skizziert sein Benutzerprofil. Er hofft, dass die Geeks den Roboter wie einen offenen Computer behandeln, selbst programmieren und trainieren können, damit der Roboter lernt, das Zimmer aufzuräumen, lustige Tänze zu tanzen oder sogar noch mehr fantasievolle benutzerdefinierte Funktionen auszuführen.
Dies ist nicht nur eine geschickte Markteintrittsstrategie, sondern auch ein gut durchdachtes Datenakkumulationskonzept. Xu Rui gesteht ein, dass das größte Hindernis für das Verstärkungslernen derzeit das "Mangel an Daten" ist.
"Die Grenze des aktuellen RL ist die Datenmenge. Die effektiven Interaktionsdaten der Roboter sind einfach zu wenige." Anders als bei den großen Sprachmodellen, die die gesamte Internettexte verarbeiten können, hängt das Lernen der Roboter stärker von den Interaktionsdaten in der realen physischen Welt ab. Indem sie den Roboter zunächst an die kreativsten und handwerklichen Enthusiasten abgeben, hoffen sie, eine enorme Menge an vielfältigen Anwendungsfällen und Daten zu generieren, die dann das Modell verbessern können.
Außer diesem "Großformat-Roboter" wird auch ein kleiner Roboter im Preisbereich von etwa 1.000 US-Dollar entwickelt. Seine potenziellen Kunden sind Eltern von Highschool-Schülern, die möchten, dass ihre Kinder an innovativen Technologieprojekten teilnehmen, um ihre Chancen bei der Universitätsbewerbung zu verbessern. Die Nachfrage ist überraschend hoch. Laut Xu Rui haben bereits über 20.000 Personen ihre Kaufabsicht angemeldet.
Obwohl sie zunächst auf die Enthusiastengruppe abzielen, hat Xu Rui einen längeren Plan. Er glaubt, dass mit der Reife der Technologie und der Akkumulation von Daten die Funktionen des Produkts allmählich erweitert werden können und es in mehr praktische Anwendungen wie einfache Transkription oder Reinigung eingesetzt werden kann. Sie achten auch auf die Branchen- und Schulmärkte und glauben, dass es noch viel Raum für Verbesserungen bei der Software-Offenheit und technischen Unterstützung der bestehenden Bildungsroboter gibt.
Das Engagement für Hardware-Software-Integration und die Seele der Open-Source-Community: Die Entstehung von ksim
"Es gibt in den USA nicht viele Unternehmen wie unseres, die sowohl Hardware als auch Software entwickeln und diese tiefgehend integrieren. Viele konzentrieren sich nur auf Software oder AI-Training." Xu Rui hebt eines der Kernkompetenzen seines Teams hervor. Sie sind überzeugt, dass die physischen Eigenschaften der Hardware und die intelligenten Algorithmen der Software eng miteinander verknüpft sein müssen, um das volle Potenzial der menschähnlichen Roboter auszuschöpfen. Bei der Hardwareentwicklung haben sie drei Kernkriterien: Nutzbarkeit (die Grundbewegungen müssen reibungslos ausgeführt werden), Robustheit (stark und wenig anfällig für Schäden) und Kosteneffizienz (preiswert).
Xu Rui hat in der Vergangenheit in mehreren großen Technologieunternehmen in China und den USA gearbeitet, insbesondere in der Branche der intelligenten Hardware. Dies hat ihm ein tieferes Verständnis für die Informationsdichte und die Innovationsumgebung in China und den USA vermittelt. Er meint, dass diese beiden Länder "derzeitig die Orte mit der höchsten Informationsdichte und am besten geeignet für die Entwicklung von Robotern und Künstlicher Intelligenz sind".
Beim Herstellungsprozess plant das Team zunächst, sich auf die reifen Lieferketten in China zu verlassen. Beispielsweise verwenden die beweglichen Hände der Roboter fertige Produkte von chinesischen Zulieferern.
Aber aufgrund der komplexen geopolitischen Situation müssen sie vorsorglich handeln und überlegen, die Produktionslinie nach Südostasien zu verlagern oder sogar in den USA selbst eine Fabrik zu errichten.
"Ich denke, dass das Problem der USA derzeit die fehlende Fertigungskraft ist", sagt Xu Rui besorgt. "Viele alte Fachleute sind alt geworden, und es gibt eine Lücke in der Fertigungserfahrung der jungen Generation." Er meint sogar halb im Scherz: "Der 'Traum' (die Kosten) in den USA ist nicht niedrig genug!"
Was noch stärker das Engagement des K-scale Lab für Offenheit zeigt, ist ihr extremer Anspruch an "Open Source". Sie setzen nicht nur ihre offene Philosophie um, sondern haben auch ein Open-Source-Python-Bibliothek namens 'ksim' veröffentlicht. Bisher hat es bereits über 60 Aktualisierungen hinter sich. Dieses leistungsstarke Tool basiert auf dem Google-MuJoCo-Physik-Engine und der JAX-Hochleistungsrechenbibliothek und soll der weltweiten Entwicklergemeinschaft eine bequeme und effiziente Plattform für die Roboter-Tests bieten.
Mithilfe von ksim können Entwickler einfach Verstärkungslern-Simulationen durchführen, "so oft wie nötig in der Simulation laufen lassen, bis sie zufrieden sind", und die Algorithmen ständig optimieren. Am Ende können sie das trainierte Modell "mit einem Klick" auf den realen K-scale-Roboter übertragen und es in der realen Welt testen. Dies senkt nicht nur die Schwelle für die Entwicklung von Roboter-AI, sondern zeigt auch ihre Open-Source-Spirit von "Jeder kann teilnehmen".
Die Community ist ein weiterer wichtiger Baustein in der Unternehmensstrategie. Auf der sozialen Plattform Discord haben sie bereits eine aktive Community von Tausenden von Mitgliedern aufgebaut. Die Mitglieder haben verschiedene Hintergründe, darunter erfahrene Enthusiasten, Hochschulstudenten und neugierige Lehrer. Diese Community-Mitglieder sind nicht nur potenzielle Benutzer des Produkts, sondern auch aktive Tester und Mitentwickler. Sie nutzen Tools wie ksim, um alle möglichen Anwendungen zu erkunden. Manche haben sogar eigene Roboter-Hardware mit 3D-Druckern gebaut, um sie an die Open-Source-Software des Teams anzupassen.
Ein Mitarbeiter von Alibaba hat es geschafft, das Roboterdesign des K-scale Lab nur anhand der öffentlichen Informationen zu reproduzieren. Dies hat das Team des K-scale Lab sowohl überrascht als auch erfreut.
Diese offene Haltung und die aktive Community-Management werden von Xu Rui als "Schutzmauer" gegenüber anderen Robotermanufacturen angesehen, insbesondere gegenüber einigen chinesischen Projekten, die "Open Source" preisen, aber in der Praxis die Kerntechnologien und Komponenten schwer zu reproduzieren sind.
"Viele chinesische Unternehmen sagen, dass sie Open Source sind, aber ehrlich gesagt, ist es für andere außer ihnen unmöglich, die gesamte Technologie zu reproduzieren." sagt Xu Rui.
Natürlich bedeutet die Wahl von Open Source auch, dass man mit "Unsicherheiten" leben muss. "Wir haben seit November letzten Jahres Verzögerungen bei der Produktentwicklung", erklärt Xu Rui ehrlich. "Der Grund für die Verzögerungen ist einfach, dass alle unsere Toolketten Open Source sind, und das größte Problem bei Open-Source-Toolketten ist, dass sie manchmal nicht zuverlässig sind." Aber ihre Überzeugung von der Macht der Community und dem langfristigen Wert lässt sie diese Haltung beibehalten.
Beim Sensor-Konzept setzen sie ebenfalls auf das Verstärkungslernen. Sie verlassen sich hauptsächlich auf visuelle Sensoren und IMU (Inertial Measurement Unit) und verwenden nicht das in der Robotik weit verbreitete Laserscanning (LiDAR).
"Unser RL-Algorithmus basiert auf visuellen und Gravitationssensoren. Selbst wenn wir LiDAR installieren, bringt es nichts für unser System." Dies ist sowohl aus Kostengesichtspunk