"Zero-Data"-Roboter: Bereits nach Zwei Monaten Validierung einsetzbar! Tsinghua-Doktoranden brechen Weltmodellgrenzen und machen Roboter per "Instinkt" betriebsbereit

Das Verhalten von Robotern ist unendlich, aber die zugrunde liegenden Gesetzmäßigkeiten lassen sich auf diese drei Prinzipien zurückführen.

Wie viele Freiheitsgrade benötigt es, um eine Bankkarte von einem Tisch mit einer Roboterhand aufzunehmen?

Drei? Fünf? Die Intuition der meisten Menschen sagt, je mehr Freiheitsgrade, desto sicherer. Am besten noch mit taktiler, visueller und kraftgesteuerter Funktionalität ausgestattet … Schließlich schafft es selbst die menschliche Hand nicht immer auf Anhieb.

Aber es gibt eine Robotikfirma aus Tsinghua-Universität, die sich nicht von dieser Vorstellung beeindrucken lässt. Sie hat dieses Konzept auf einen Freiheitsgrad reduziert.

Das Modul, das Sie hier sehen, kann kaum als Roboterhand bezeichnet werden. Es ähnelt eher einer der am häufigsten in Produktionslinien verwendeten industriellen Greifzangen: Zwei keilförmige schwarze Greifbacken, die entlang einer festen Schiene bewegt werden und wie ein Vogelkopf schließen.

Die Innenseite der Greifbacken ist mit einem silbernen taktilen Sensor-Material umhüllt. Darüber hinaus gibt es keine externe Kamera, keinen Cloud-Server und keine “musterhaften Bahnkurven-Daten”. Alles geschieht auf der lokalen Seite des Geräts.

Trotzdem kann es die weiße Karte aufnehmen, die weniger als 1 Millimeter dick ist und flach auf dem Tisch liegt. Genauer gesagt, hebt es die Karte nicht “greifend”, sondern “hebelnd” auf: Eine Greifbacke drückt zunächst den Rand der Karte fest, nutzt den Tisch als Drehpunkt, und das andere Ende der Karte wird angehoben. Die entsprechende Greifbacke schließt sich daraufhin und hebt die Karte zusammen mit der anderen Greifbacke an.

Wie in der Videoaufnahme zu sehen ist, ist der Vorgang nicht elegant, sondern eher ungeschickt: Wenn der Winkel ein wenig abweicht oder die Kraft zu stark ist, fällt die Karte herunter. Aber es probiert es immer wieder und korrigiert sich immer wieder, bis es schließlich den passenden Angriffspunkt findet.

Sie sind nicht der einzige, der von den Experimentierergebnissen überrascht ist. Selbst Jiang Yao, der Gründer von Acorn Robot (Doktor der Maschinenbauwissenschaften an der Tsinghua-Universität und Postdoc in Neurowissenschaften an der Harvard-Universität), bezeichnet es als “Überraschung”. “Es war nicht von Anfang an erfolgreich”, erinnert er sich. “Aber nach acht oder neun Versuchen hat es tatsächlich eine Lösung gefunden.”

Als Jiang Yao über dieses Thema spricht, strahlt seine Augen immer noch vor Begeisterung, ganz so, als würde er zum ersten Mal die Intelligenz eines Sprachmodells erleben. Er nennt die “von sich aus gefundene Strategie” des Roboters “Verhaltensentstehung durch Instinkt”. Das Antriebsmodell dahinter ist das endseitige autonomes Entscheidungsmodell Natus von Acorn Robot.

Dieses Modul ist das erste Produkt von Acorn Robot für die flexible Fertigung im B2B-Bereich. Es hat bereits die Proof-of-Concept-Phase (POC) bei einem der führenden kosmetischen Unternehmen in China abgeschlossen und wird jetzt in großem Maßstab eingesetzt.

In der Forschungs- und Entwicklungs pipeline von Acorn Robot gibt es noch weitere Ausführungsmodule. Sie üben tagtäglich das Greifen verschiedener Gegenstände: von Mineralwasserflaschen bis zu weichen Gummibällen, von Bananen bis zu Tofu und von Gegenständen mit unregelmäßiger Form.

All diese scheinbar ungeschickten Versuche weisen auf dieselbe Entdeckung hin:

Wenn ein Roboter in der Lage ist, eine effektive Strategie zu entwickeln, ohne “musterhafte Datenvorlagen”, dann fehlt der Ausführungsebene möglicherweise nicht an Bahnkurvendaten, sondern an einem grundlegenden Mechanismus, der ihn “bewegen und versuchen lässt”.

Dies ist auch Jiang Yaos schärfste Kritik an der derzeit vorherrschenden Embodied Intelligence-Strategie: VLA, Weltmodelle und Simulationslernen sind nicht wertlos, aber sie scheitern oft an der “letzten Meile” der Ausführung.

Die stummste Herausforderung der Embodied Intelligence: Die Ausführungsebene

Ob es sich um das end-to-end-geschlossene VLA oder um das “Weltmodell” zur Vorhersage der physikalischen Zukunft handelt, im Grunde genommen folgt alles der Logik der Sprachmodelle, die glauben, dass Intelligenz einfach durch die Menge der Daten entsteht. Man denkt, dass die operative Intelligenz automatisch auftauchen wird, wenn man genug Videos gesehen und genug Daten gefüttert hat. Aber wenn es um die reale physikalische Interaktion geht, stößt diese Logik auf zwei unüberwindliche Hindernisse: Kontakt und Körper.

Die Essenz der Operation ist physikalischer Kontakt. Reibung, Dämpfung, Kraftübertragung … all diese Variablen, die in der realen Welt überall vorhanden sind, sind in Weltmodellen schwer zu modellieren. Ein Weltmodell kann möglicherweise ein prädiktives Video über “einen Roboter, der ein Glas aufnimmt” generieren, aber es kann nicht die relative Reibung zwischen dem Finger und der Glaswand im Moment des Kontakts berechnen, noch die winzige Verformung des Glases vor dem Herunterfallen vorhersagen.

Das “Anscheinend-Können” in der Sichtweise kann das “Nicht-Können” in der Ausführungsebene nicht verbergen.

Darüber hinaus muss die Operation über einen konkreten Körper ausgeführt werden, und jeder Roboter hat geringfügige Unterschiede in der Gelenkverschleiß und der Montagefestigkeit. Das Acorn-Team hat Vergleichsexperimente durchgeführt: Zwei Greifzangen desselben Typs, die mit demselben Modellparameter betrieben werden, zeigen aufgrund geringfügiger Unterschiede in der Schienenfestigkeit deutliche Unterschiede in der Ausführungsebene.

Die Unvorhersehbarkeit des Kontakts und die geringen Unterschiede zwischen den Körpern machen die datengesteuerte Strategie zu einem unendlichen Loch. Die Verhaltensmuster sind unendlich, und das Modelltraining muss alle Szenarien und Hardwareabweichungen abdecken. Aber selbst wenn der weltweit größte offene Roboter-Datensatz bereits Millionen von Bewegungsbahnen enthält, kann er die Generalisierungsfähigkeit des Modells in der Ausführungsebene nicht auslösen.

Bildbeschreibung: Open X-Embodiment (OXE), der derzeit weltweit größte offene Roboter-Datensatz, enthält über eine Million Roboterbewegungszyklen, die von 22 verschiedenen Robotertypen aus 34 Forschungslaboratorien weltweit gesammelt wurden.

Was noch schlimmer ist, auf einer Produktionslinie, die nach Sekunden abgerechnet wird, hat niemand die Zeit, auf die Sekundenlange Inferenzschleife eines großen Modells zu warten. Die Verzögerung von VLA von mehreren Sekunden reicht nicht einmal aus, um in die Produktion einzusteigen.

Darum ist Jiang Yao überzeugt: Es gibt kein absolut universell gültiges bestes Modell, sondern nur das Modell, das am besten für diesen Roboter geeignet ist. VLA versucht, die Operationsprobleme mit Daten zu lösen, aber die Erfassung von Hunderten von Stunden hochwertiger Fernbedienungsdaten erfordert selbst hohe Bedienungsschwellen.

“Das Lernen von Operationen muss in der Praxis erfolgen, aber die Voraussetzung für die Praxis ist, dass man überhaupt in die Lage versetzt wird, zu praktizieren.” Dies ist Jiang Yaos zweiter Schlüsselpunkt bei der Betrachtung der Roboterexekution. Es zeigt die Schwachstelle von VLA in der Ausführungsebene auf und ist gleichzeitig der Ausgangspunkt für Acorn Robots “Neuanfang”.

Das unberührte Gebiet, das aus der Kreuzung von Disziplinen entsteht

Diese Einschätzung ist nicht aus der Literatur abgeleitet.

Während seiner Doktorarbeit an der Fakultät für Maschinenbau an der Tsinghua-Universität hat Jiang Yao ständig mit Impedanzsteuerung und mechanischem Modellieren zu tun gehabt. Dies hat ihm eine tiefe Intuition für die physikalische Interaktion vermittelt: Die Essenz der Operation ist eine mechanische Verhaltensweise, nicht ein visuelles Problem.

Im Jahr 2016 absolvierte er ein Postdoc in Neurowissenschaften an der Harvard-Universität, und sein Forschungsgebiet wechselte zu der motorischen Steuerung des menschlichen Gehirns. Im Labor wurden zahlreiche Experimente zur sensorischen Störung durchgeführt: Die visuelle Wahrnehmung wurde blockiert, die taktile Wahrnehmung wurde gestört, und die Veränderungen der menschlichen Handbewegungen wurden beobachtet. Er hat festgestellt, dass die grundlegenden Greifbewegungen des Menschen immer gleich bleiben, unabhängig davon, wie stark die Störung ist.

“Dieser immer gleich bleibende Teil ist der Instinkt”, hat Jiang Yao erkannt. Ohne Umwelt kann man keine Sprache lernen, aber niemand hat Babys beigebracht, wie man greift, und dennoch greifen alle Menschen auf eine sehr ähnliche Weise. Dies liegt nicht daran, dass sie genug Szenarien gesehen haben, sondern daran, dass es ein angeborenes System basierend auf taktiler und mechanischer Wahrnehmung gibt.

Zwei scheinbar völlig verschiedene Disziplinen haben sich bei Jiang Yao vereint: Die Essenz der Operation ist nicht die Anpassung an visuelle Bahnen, sondern die mechanische Gesetzmäßigkeit; die universelle Operationsfähigkeit des Menschen stammt aus dem Instinkt, nicht aus Daten.

Das Übertragen des “Instinkts” auf Roboter war damals ein völlig unberührtes Gebiet. Im Jahr 2018, als er nach China zurückkehrte und ein Labor gründete, war “Embodied Intelligence” noch nicht populär, und VLA war noch nicht allgegenwärtig. Seine Kollegen fanden, dass er Unsinn erzählte, und die Investoren verstanden ihn nicht …

Jiang Yao hat sich nicht beeilt, die Außenwelt zu überzeugen. Stattdessen hat er äußerst vorsichtig Mitstreiter gewonnen: Das Labor fordert, dass Studierende bereits im zweiten Jahr das Team betreten und beobachten. Zunächst wird die Fähigkeit beurteilt, aber auch, ob sie verstehen, dass die datengesteuerte Methode die Probleme in der Ausführungsebene nicht lösen kann und ob sie an den Instinkt glauben. Menschen, die zwar starke Algorithmen können, aber diese Überzeugung nicht teilen, werden nicht akzeptiert. Neue Mitglieder müssen von allen Doktoranden im Labor akzeptiert werden. Derjenige, der am längsten im Team war, hat ihm sogar 10 Jahre lang gefolgt.

Als er 2024 gründete, haben sich alle 8 Doktoranden im Team entschieden, Acorn Robot beizutreten. Noch bemerkenswerter ist, dass diese Leute privat eine Einigkeit darüber erreicht haben: Wenn das Unternehmen jemals auf die “Instinktsteuerung” verzichtet, werden sie nicht mehr für das Unternehmen arbeiten. Dies ist keine übliche Romantik in einem Gründungsgeschäft, sondern eine notwendige Abwehrlinie, die die kognitive Einigkeit gegen die Brancheninertie bilden muss.

Weil sie das “Gravitationsgesetz der Operationsebene” suchen.

Es geht um Gesetzmäßigkeiten, nicht um Regeln

Dies bedeutet, dass das Streben nach der Anpassung an Bahnen aufgegeben werden muss. Newton hat nicht jede Bewegungsbahn ausführlich untersucht, sondern mit einem Gravitationsgesetz, das keine Bewegungs-Parameter enthält, alle Bewegungen erklärt. Jiang Yao hat dieselbe Logik auf die Operation übertragen: VLA lernt Bahnen, Acorn Robot sucht nach Gesetzmäßigkeiten.

Regeln fixieren die Operationsalgorithmen, während Gesetzmäßigkeiten nur Einschränkungen setzen. Basierend auf der Untersuchung der physikalischen Interaktion hat Jiang Yao diese Gesetzmäßigkeit in drei Arten von Operationsinstinkten zusammengefasst:

Der Orientierungsinstinkt löst das Problem “Wohin” – in Zusammenarbeit mit der visuellen Wahrnehmung leitet er das Ende des Roboters in Richtung des Ziels, ähnlich wie ein Baby, das automatisch den Kopf dreht, wenn es ein bewegendes Objekt sieht;

Der Explorationsinstinkt löst das Problem “Wie berühren” – dies ist der komplexeste und am meisten Intelligenz aufweisende Teil. Nach dem Kontakt folgt der Roboter nicht einer vordefinierten Prozedur oder einer Nachahmung, sondern tastet autonom entlang der Oberfläche des Objekts, um eine stabile Kontaktkonfiguration zu finden;

Der Interaktionsinstinkt löst das Problem “Wie greifen” – mit der Minimierung der Verschiebung als Kernpunkt passt er die Greifkraft in Echtzeit an. Beim Greifen von Tofu ist die Kraft sanft, beim Greifen eines Hammers fest, und bei der Montage passt er sich dem Widerstand an. Alle Regelungen basieren auf der taktilen Echtzeitrückmeldung und erfordern keine Trainingsdaten.

Niemand hat der Greifzange am Anfang gesagt, “greife die Karte von der Seite”. Sie hat nur die grundlegende Erwartung, “einen stabilen Kontakt zu finden”, und die Hebelbewegung entsteht natürlich unter den physikalischen Einschränkungen.

Aber um diesen Instinkt wirklich in einem geschlossenen Kreis zu implementieren, muss eine entscheidende technische Schwelle überschritten werden: Die Verschiebungserkennung. “Es ist wie, wenn Sie in einem Hochgeschwindigkeitszug stehen und die relative Geschwindigkeit zwischen dem Zug und dem Boden messen möchten”, erklärt Jiang Yao. “Sie sind in einem der beiden Systeme eingebettet und haben fast keine Referenzpunkte.”

Das Team hat 7 Jahre gebraucht und mehr als zehn Prototypen entwickelt, um die Mikrometergenaue Verschieb

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die "Zero-Data"-Roboter sind da. Nach nur zwei Monaten Validierung können sie bereits eingesetzt werden. Diese Doktoranden der Tsinghua-Universität durchbrechen die Grenzen des Weltmodells und lassen Roboter durch "Instinkt" sofort betriebsbereit werden.

Die stummste Herausforderung der Embodied Intelligence: Die Ausführungsebene

Das unberührte Gebiet, das aus der Kreuzung von Disziplinen entsteht

Es geht um Gesetzmäßigkeiten, nicht um Regeln