StartseiteArtikel

Die Open-Source-Revolution der Roboter: Vier Kräfte und ihre Spiele hinter dem "kostenlosen Gehirn"

硅谷1012026-03-30 09:32
Die ökologische Kraft von "Modell + Daten + Werkzeuge"

Um die Zeit um Februar dieses Jahres herum haben Xiaomi, Ant Group, Alibaba DAMO Academy und Unitree nacheinander Open-Source-Modelle für Roboter veröffentlicht. Noch früher hat NVIDIA auf der CES das GR00T N1.6 vorgestellt und sein angeblich "erstes weltweit offenes Basis-Modell für humanoide Roboter" erneut verbessert.

Diese Konsumelektronikunternehmen, Internetriesen und Chipkonzerne haben kürzlich alle ihre Roboter-"Gehirne" herausgegeben und sie kostenlos für die ganze Welt zugänglich gemacht. Welche Machenschaften und Milliarden-Dollar-Wettkämpfe gibt es in der Ökosystem der Open-Source-Roboter-Modelle?

In diesem Artikel setzen wir unsere Roboter-Serie fort. In unserem vorherigen Artikel über "Closed-Source-Roboter-Modelle" haben wir das heute übliche VLA-Modell für Embodied Intelligence analysiert, die verschiedenen Ansätze von Closed-Source-Riesen wie Tesla und Figure aufgedeckt und wie sie mit ihren Hardware- und Datenvorteilen eine Schutzmauer aufgebaut haben. In diesem Artikel haben wir mit Forschern aus weltweit führenden Embodied-Intelligence-Labors gesprochen, um die zentralen Akteure und Schlüsseltechnikführer in der Open-Source-Algorithmen-Richtung zu untersuchen.

Zugleich versuchen wir, diese drei Fragen zu beantworten:

Erstens: Welche Technologieansätze verfolgen diese Open-Source-Modelle und warum können sie die Riesen herausfordern?

Zweitens: Was ist der Motivation hinter der Open-Source-Strategie? Was ist "echte" Open-Source und was ist "falsche" Open-Source?

Drittens: Wie sieht das Ökosystem der Open-Source-Modelle aus? Mit was kann die Open-Source-Community gegen Konkurrenten wie Tesla ankämpfen?

01 Das Ganze Bild der Open-Source-Modelle: Wer macht was und wie?

In der Open-Source-Modell-Szene ist das VLA-Modell immer noch der Mainstream. Einfach ausgedrückt, ermöglicht es dem Roboter, seine Umgebung "zu sehen", Befehle "zu verstehen" und dann die richtigen Aktionen "auszuführen".

Derzeit können die Open-Source-VLA-Modelle grob in vier Kräftegruppen unterteilt werden:

1. Die Akademiker: Sie haben keine riesigen Parameter, können aber mit wenig erreichen. Die repräsentativen Modelle sind OpenVLA und Octo.

2. Die Riesen-Ökosystem-Schule: Sie machen nicht nur Modelle, sondern bauen auch eine gesamte Toolchain auf. Repräsentativ sind NVIDIA's GR00T N1 und Google's Gemini Robotics.

3. Start-ups und chinesische Kräfte: Independent Variable, OpenMind, Xiaomi, Ant Group und andere.

4. Die Extreme-Technologie-Schule: Sie strebt maximale Genauigkeit und Generalisierungsfähigkeit an. Das repräsentative Modell ist π₀ von Physical Intelligence.

1.1 Der Idealismus der Akademiker

OpenVLA wurde im Juni 2024 berühmt. Dieses Open-Source-Modell mit nur 7 Milliarden Parametern hat in 29 Roboter-Handhabungsaufgaben das "Top-Modell" RT-2-X von Google DeepMind überwältigt. RT-2-X hat 55 Milliarden Parameter, ist also achtmal so groß wie OpenVLA und steht hinter ihm die gesamte Rechenleistung und die Datenressourcen von Google. Aber das Ergebnis war: Die Erfolgsrate von OpenVLA war um 16,5 % höher als die von RT-2-X.

OpenVLA hat mit wenig erreicht, dank eines sehr cleveren Architekturdesigns: Zwei visuelle Encoder plus ein großes Sprachmodell.

Im Vergleich zu Google's RT-2-X, das nur einen visuellen Encoder verwendet, können Sie sich das wie eine Person vorstellen, die sehr intelligent ist, aber alles selbst macht: Sie hat starke Fähigkeiten, aber eine geringere Effizienz bei der Informationsverarbeitung.

OpenVLA hingegen verwendet zwei visuelle Encoder, was wie "zwei Paar Augen" ist. Das erste Paar Augen heißt "DINOv2" und ist für das Verständnis von Raumbeziehungen zuständig. Das zweite Paar Augen heißt "SigLIP" und versteht speziell Semantik und Allgemeinwissen. Dann fungiert das damalige Open-Source-Großsprachenmodell Llama 2 als "Gehirn", das die räumlichen und semantischen Informationen kombiniert, Befehle verarbeitet und schließt.

Einfach ausgedrückt, ist OpenVLA wie ein kleines Team von drei Personen, das zusammenarbeitet, indem es zwei Arten von Informationen physisch trennt, jeweils optimiert und dann eine einheitliche Entscheidung trifft. Insgesamt ist es dadurch stärker. Man kann es sich ungefähr wie "drei einfache Leute können einem klugen Mann gleichkommen" vorstellen. Diese Architektur hat bewiesen, dass im Bereich der Embodied Intelligence "groß" nicht unbedingt "klug" bedeutet.

OpenVLA hat auch einen Vorteil bei den Datensätzen, nämlich "Open X-Embodiment". Dies ist auch ein sehr starker Vorteil des Open-Source-Ökosystems, auf den wir später ausführlicher eingehen werden.

Außerdem hat OpenVLA die Art der Aktionsdarstellung und die Trainingsstrategie optimiert. Sein Sieg über Google beruht also auf einem Kombinationsergebnis aus "Daten + Architektur + Trainingsstrategie".

Und OpenVLA hat nach seinem Sieg vollständig Open-Source gemacht: Der Code, die Modellgewichte und die Trainingsskripte wurden alle veröffentlicht. Diese offene Haltung hat die gesamte Branche sehr aufgeregt, und es hat begonnen, damit verschiedene Optimierungen, Beschleunigungen der Inferenz und Feinabstimmungen vorgenommen zu werden.

Dies ist eine sehr typische Open-Source-Geschichte, die es ermöglicht, mit innovativen Methoden "mit wenig gegen viel zu kämpfen" und die nachfolgende Arbeit im gesamten Technologiebereich anzustoßen.

Jetzt sprechen wir über einen anderen typischen Open-Source-Ansatz, "Octo". Wenn OpenVLA für "skalierbare Open-Source" steht, dann steht Octo für "verbreitete Open-Source".

Wir wissen, dass die "Generalisierungsfähigkeit" von Roboteralgorithmen eine große Herausforderung ist. Die bisher übliche Methode war, für einen bestimmten Roboter einen bestimmten Datensatz zu verwenden, um die Strategie zu trainieren. Aber wenn Sie einen anderen Roboter oder eine andere Umgebung verwenden, müssen Sie alles von vorne trainieren. Einige Experten in der Open-Source-Community möchten ein "allgemeines Roboter-Modell" erreichen und das Modell über Techniken wie Zero-Shot auf eine breite Palette von Robotern und Szenarien erweitern. Dieser Ansatz wird "allgemeine Roboterstrategie" genannt, und Octo ist ein Vertreter davon.

Octo hat nur einige wenige Millionen Parameter und ist somit kleiner als OpenVLA. Es ist ein auf Transformer basiertes Diffusionsstrategiemodell, dessen Design auf Flexibilität und Skalierbarkeit setzt. Es unterstützt verschiedene Roboterplattformen und Sensor-Konfigurationen und kann sich durch Feinabstimmung schnell an neue Beobachtungs- und Aktionsräume anpassen. Dies ermöglicht es, Octo in verschiedenen Roboter-Lern-Szenarien anzuwenden.

Octo ist nicht darauf ausgelegt, das stärkste zu sein, sondern dass es von jedem verwendet werden kann. Es soll der Open-Source-Community ein leichteres und schnell anpassbares allgemeines Strategie-Basis-Modell bieten.

1.2 Der komplette Ökosystem-Ansatz der Riesen

Bei der GTC-Konferenz im März 2025 hat Huang Renxun persönlich die Bühne bezogen und das GR00T N1 vorgestellt, das als "erstes weltweit offenes Basis-Modell für humanoide Roboter" angepriesen wird. Bis zur CES im Januar 2026 war es bereits in die Version N1.6 weiterentwickelt worden.

GR00T N1 verwendet eine Zwei-System-Architektur: Ein "System 2" basierend auf einem visuellen Sprachmodell ist für langsame Denkvorgänge zuständig, d. h. es versteht die Umgebung, interpretiert Befehle und macht Pläne. Ein "System 1" basierend auf einem Diffusions-Transformer ist für schnelle Denkvorgänge zuständig und wandelt die Pläne mit hoher Frequenz in genaue Gelenkbewegungen um. Beide Systeme werden end-to-end gemeinsam trainiert und sind eng gekoppelt.

Mit 2,2 Milliarden Parametern wurden die Modellgewichte und der Code veröffentlicht, und viele führende Unternehmen für humanoide Roboter haben frühzeitig Zugang erhalten. Und NVIDIA hat nicht nur das Modell geliefert, sondern auch das gesamte Ökosystem: Mit Omniverse wird Digitales Zwillingsmodell erstellt, mit Isaac Sim werden synthetische Trainingsdaten generiert, mit Cosmos werden Videodaten erzeugt und mit Newton wird die Physiksimulation durchgeführt. Es ist eine komplette Service-Palette.

Google hat auch weiterhin in die allgemeine Roboterstrategie investiert. Das frühere RT-1 hat Code und Daten Open-Source gemacht, aber die späteren und stärkeren RT-2 und die darauf folgenden RT-Serien sind Closed-Source-Modelle und wurden nicht veröffentlicht.

Jetzt beschleunigt Google auch. Im Jahr 2025 hat es die Gemini Robotics-Serie von Modellen vorgestellt und den ehemaligen Cheftechnikoffizier von Boston Dynamics, Aaron Saunders, als Vicepräsident für Hardware-Engineering gewonnen. Demis Hassabis, der CEO von DeepMind, nennt diese Vision "das Android der Roboterwelt". Es geht darum, ein allgemeines Roboter-Betriebssystem zu entwickeln, damit Gemini das "Gehirn" für verschiedene Roboter wird.

Bei der CES 2026 haben Boston Dynamics und Google DeepMind eine strategische Partnerschaft angekündigt und das Gemini Robotics-Modell in den humanoiden Roboter Atlas integriert. Gemeinsame Forschungen werden in den Labors beider Unternehmen beginnen.

Google hat von Open-Source zu Closed-Source gewechselt und jetzt versucht, "das Android der Roboterwelt" zu schaffen. Der Wechsel des Kurses ist ziemlich schnell und der Ehrgeiz ziemlich groß, aber es ist definitiv einer der wichtigsten Akteure in der Roboterbranche. Wir werden gespannt auf seine nächsten Schritte warten.

1.3 Start-ups und chinesische Kräfte

Chinas Beteiligung im Bereich der Open-Source-Embodied Intelligence beschleunigt sich, und die Tendenz wandelt sich von reinem "Nachlaufen" hin zu "Mitbestimmung der Regeln".

Das am 12. Februar von Xiaomi veröffentlichte Xiaomi-Robotics-0 hat 4,7 Milliarden Parameter und verwendet die MoT-Mischarchitektur, die "Gehirn" (visuelles Sprachverständnis) und "Kleinhirn" (Aktionsausführung) trennt und das Problem der Inferenzverzögerung, das bei VLA-Modellen häufig auftritt, verbessert. Das Modell ist Open-Source und kann auf einem Consumer-GPU laufen.

LingBot-VLA von Ant Group verfolgt einen anderen Ansatz und betont die Generalisierungsfähigkeit über verschiedene Formen hinweg. Dieses Modell wurde auf 9 verschiedenen Zwei-Arm