StartseiteArtikel

Unabhängig vom Ontologiemodell: Generalist will nach 270.000 Stunden die Tische im echten Datensammelfeld umwerfen.

具身研习社2025-11-14 08:13
Suche die Antwort aus den Anforderungen.

Der entscheidende Wendepunkt bei Datenwettbewerben liegt nicht mehr im Streit um die Route der Datenlösungen, sondern darin, ob man sich an das "erste Prinzip" der Datenerfassung hält: die Streben nach wiederverwendbaren, erweiterbaren und entwicklungsfähigen skalierbaren Datenströmen. Die traditionellen Fernsteuerungsmodelle, die sich auf einzelne Entitäten konzentrieren und mit hohen Kosten für die Annotation verbunden sind, können nicht nur den von der Skalengesetzmäßigkeit (Scaling Law) erforderlichen Datenstrom aufrechterhalten, sondern widersprechen im Grunde der grundlegenden Logik der Intelligenzgeneralisation.

Am 4. November 2025 gab das amerikanische Robotikunternehmen Generalist AI aus dem Silicon Valley eine branchenerregende Nachricht bekannt: Ihr GEN-0 Embodied Foundation Model wurde mit 270.000 Stunden menschlicher Bedienungsvideos trainiert und bestätigte erstmals in der Robotik die Existenz der Skalengesetzmäßigkeit (Scaling Law). Dies wird in der Branche als der "ChatGPT-Moment" der Embodied Intelligence gefeiert.

Bildquelle: Generalist

Was bedeutet 270.000 Stunden eigentlich?

Dieser Datenumfang übersteigt bei weitem alle derzeit öffentlichen Datensätze von Roboterentitäten und wächst noch immer mit einer Rate von 10.000 Stunden pro Woche. Im scharfen Kontrast dazu befindet sich das einst als "Spitze der Pyramide" angesehene Modell der Fernsteuerung von echten Robotern bei der Datenerfassung in einem unüberwindlichen Engpass. Seine langsame Akkumulationsrate kann die exponentiellen Datenbedürfnisse der Skalengesetzmäßigkeit (Scaling Law) überhaupt nicht erfüllen.

Die Datenerfassung bei der Fernsteuerung von echten Robotern ist im Wesentlichen ein linearer Akkumulationsprozess, der durch die physische Welt eingeschränkt ist. Das typische Modell besteht darin, um eine bestimmte Roboterhardware herum eine physische Datenfabrik aufzubauen, in der Operatoren durch Fernsteuerung eines realen Roboters Aufgaben demonstrieren. Einige inhärente Eigenschaften dieses Modells machen es schwierig, der Skalengesetzmäßigkeit (Scaling Law) zu folgen:

Der Gegensatz zwischen linearem Wachstum und exponentiellen Anforderungen: Die Skalengesetzmäßigkeit (Scaling Law) zeigt, dass die Modellleistung mit dem Datenumfang potenziell steigt. Dies bedeutet, dass der Datenumfang kontinuierlich exponentiell wachsen muss. Die Datenerfassung bei der Fernsteuerung von echten Robotern hängt jedoch stark von der "Massenbeschaffung" von Mitarbeitern und dem Betrieb von echten Maschinen ab, und ihr Wachstum ist linear. Die Erzeugung jedes Datenpunkts ist mit tatsächlichen Verschleiß der Hardware, physischer Bewegungszeit und Personalkosten verbunden. Selbst wenn man eine Datenerfassungsbasis mit Hunderten von Mitarbeitern aufbaut, bleibt die jährliche Datenproduktion oft auf dem Niveau von zehntausenden von Stunden, was weit hinter dem von der Skalengesetzmäßigkeit (Scaling Law) geforderten "Datenstrom" zurückbleibt.

Der "Anker-Effekt" der physischen Hardware: Die Bereitstellung, das Debugging und die Wartung von realen Robotern sind komplexe Prozesse, die das Datenerfassungssystem starr und sperrig machen und eine flexible und schnelle Skalierung unmöglich machen. Die Akkumulationsrate der Daten wird fest durch die Fähigkeiten und die Verfügbarkeit der physischen Hardware festgelegt. Ein Branchenvertreter gestand: "Die Kapazitätsgrenze unserer physischen Fabrik, die wir mit all unserer Kraft aufgebaut haben, ist deutlich sichtbar. Dieses Modell kann uns nicht auf den Weg zu einem skalierten Modell bringen."

Wenn man kostengünstig und aufwendig an der Datenerfassung arbeitet, kann man schließlich nur einen Datensatz im Millionenbereich erzielen. "Selbst wenn man den mit all seinem Blut und Schweiß geschaffenen Datensatz öffentlich zugänglich macht, ist dies für die Branchenschwierigkeiten nur ein Tropfen auf den heißen Stein", sagte einst ein Vertreter der Embodied Intelligence gegenüber der Embodied Learning Community.

Offensichtlich ist die Qualität der Daten von der Fernsteuerung von echten Robotern höher, aber wir müssen noch einen Weg finden, um die Skalierung der Daten zu lösen. Während wir auf die Skalenerweiterung der Daten von echten Robotern warten, repräsentiert das Generalist-Modell eine andere Lösung.

Freilich gibt es keine richtigen oder falschen Technologierouten. Es geht darum, ob der Entwicklungspfad der Skalengesetzmäßigkeit der KI angepasst werden kann. Aber nun steht ein scheinbar unlösbares Problem vor uns: Wie kann man den Skalenengpass bei der Datenerfassung überwinden?

Wie kann man dieses Problem lösen?

Um das Problem zu lösen, fragen Sie zuerst, was der Roboter braucht

Das erste Prinzip zur Lösung des Problems liegt in der "Sprache" der Embodied Roboter. Die Kernfrage der Branche ist nie die blinde Ausweitung des Marktvolumens oder die bloße Vergrößerung des "Kuchens", sondern das Stillhalten und das Lauschen auf die "echten Bedürfnisse" der Embodied Roboter: Welche Szenarien, technische Unterstützung und Datennahrung brauchen sie, um wirklich den Sprung von einem "technischen Exponat" zu einem "industriellen Werkzeug" zu schaffen?

Die Verwirklichung des Wertes von Embodied Robotern beruht im Kern auf der tiefen Logik des "Einsatzes", d. h. die Szenarienanwendung muss gleichzeitig die drei Anforderungen von dringender Notwendigkeit, Langzeitwirkung und Skaleneffizienz erfüllen. Diese drei Faktoren bilden die Grundlage für die industrielle Umsetzung: Die dringende Notwendigkeit ist die Voraussetzung für die Existenz eines Szenarios und zeigt auf die ungedeckten Kernprobleme der Branche; die Langzeitwirkung bestimmt die Nachhaltigkeit des Wertes und vermeidet kurzfristige, auf Schnickschnack gegründete Anwendungen; die Skaleneffizienz ist der Schlüssel zur industriellen Skalierung und unterstützt den positiven Zyklus der technologischen Iteration und des geschäftlichen Closed-Loop.

Die derzeit häufig auftretenden Show- und Demonstrationsszenarien in der Branche sind im Wesentlichen nur "Szenarioschnitte" in der frühen Phase der Kommerzialisierung. Obwohl diese Anwendungen die technologischen Fortschritte direkt zeigen und die Aufmerksamkeit des Marktes auf sich ziehen können, stellen sie keinesfalls das komplette Bild der industriellen Umsetzung dar. Der eigentliche Umsetzungspfad der Embodied Roboter besteht darin, ein "Kollegenpartner" der menschlichen Arbeit zu werden:

Einerseits befreien sie die Menschen von wiederholenden Arbeiten und niedrigwertigen, lästigen Aufgaben, andererseits übernehmen sie gefährliche und anstrengende Arbeitsaufgaben und integrieren sich schließlich tief in die Kernbranchen wie die Fabrikproduktion, den gewerblichen Dienstleistungssektor und die Spezialarbeiten ein, um die Arbeitsleistung zu verbessern und das Produktionsmodell zu modernisieren.

Die Umsetzung in Kernbranchenszenerien kann keinesfalls durch das Showmodell auf der Bühne unterstützt werden, bei dem standardisierte Bewegungen nach einem voreingestellten Programm ausgeführt werden. Es erfordert, dass die Embodied Roboter sich aus dem "Kopieren von Bewegungen" befreien und die innere Struktur und die dynamische Betriebsspur der physischen Welt tief verstehen. Dazu gehören Kernfragen wie die Echtzeitanpassung an Umweltvariablen, die genaue Wahrnehmung von Objekteigenschaften und die Fehlergrenzen bei der Aufgabenausführung.

Mit anderen Worten, Embodied Roboter müssen nicht nur "tun können", sondern auch "verstehen, was sie tun": Sie müssen die Standards für das "Richtige tun" in verschiedenen Szenarien kennen und die logischen Zusammenhänge hinter den Bewegungen verstehen, anstatt einfach voreingestellte Befehle auszuführen.

Diese Fähigkeit, "zu verstehen, was man tut", ist im Wesentlichen eine systematische Zerlegung, Wiedergabe und Optimierung des menschlichen Verhaltensmusters. Im Vergleich zu groben, makroskopischen Bewegungen wie Armbewegungen liegt der Kernschwierigkeit in langfristig umsetzbaren Branchenszenerien in der fein abgestimmten Interaktionsfähigkeit wie haptischer Rückmeldung, Kraftsteuerungsgenauigkeit und Umweltwahrnehmung.

Die "AI-Mutter" Fei-Fei Li hat in ihrer kürzlich veröffentlichten Erklärung zur Raumintelligenz dieses Problem tiefgehend analysiert. Sie weist darauf hin, dass die Raumintelligenz eine grundlegende Rolle bei der Interaktion zwischen Menschen und der physischen Welt spielt - wir verlassen uns jeden Tag darauf, um alltägliche, scheinbar banale Bewegungen auszuführen: Wir beurteilen die Position beim Parken, indem wir uns den sich verringernden Abstand zwischen der Front des Autos und der Bordsteinkante vorstellen; wir fangen einen von der anderen Seite des Raumes geworfenen Schlüssel; oder wir gießen Kaffee in eine Tasse, ohne zu schauen, wenn wir halb schlafend sind.

Bildquelle: Screenshot des A16Z-Kontos

Allerdings steht der Entwicklung dieser Fähigkeit für Roboter eine große Herausforderung entgegen. Fei-Fei Li stellte klar: "Eine zentrale Herausforderung bei der Entwicklung dieser Roboter ist der Mangel an Trainingsdaten, die für verschiedene Embodied-Formen geeignet sind."

Dies bedeutet, dass Roboter feinere physische Interaktionsdaten benötigen: Wie soll man auf die Rückprallkraft einer Tastatur reagieren, wenn man die Tasten drückt? Mit welcher Kraft muss man den Deckel einer Mineralwasserflasche drehen, da sie sich als nicht reines Starrkörper leicht verformt? Eine ausreichende Menge an hochwertigen, fein abgestimmten Daten ist die "Nahrung" für die genaue Ausführung von Aufgaben durch Embodied Roboter. Diese vom Menschen schwer ausdrückbaren Daten sind ein wichtiger Engpass für die Skalierung ihrer Anwendung.

Ohne eine vollständige Daten-Closed-Loop-Nahrungsversorgung kann die Interaktionsausführung leicht außer Kontrolle geraten. Dies ist auch die Ursache für viele "Umsetzungstestfälle" in der Branche. Die auf den sozialen Medien kursierenden "Schwarzen Geschichten" von Embodied Robotern sind im Wesentlichen direkte Auswirkungen des Mangels an fein abgestimmten Fähigkeiten: Beim Öffnen eines Deckels wird die Flasche plattgedrückt, weil die Kraftsteuerungsfähigkeit für verschiedene Materialien und Verschraubungsgrade fehlt; beim Bauen von Steinen wird die ganze Reihe von Steinen umgestoßen, weil die genaue Wahrnehmung der räumlichen Position und der dynamischen Kollision von Objekten fehlt; bei der industriellen Montage treten Probleme wie Beschädigung von Teilen oder falsche Montage auf, weil die Fähigkeit zur Verarbeitung der haptischen Rückmeldung von feinen Teilen fehlt.

Diese scheinbar unbedeutenden Fehler enthüllen genau die Kernschwäche der Branche: Der Mangel an fein abgestimmten Fähigkeiten macht es für Embodied Roboter schwierig, der Komplexität und Ungewissheit von realen Szenarien zu begegnen. Der Kern des Problems dieser Fähigkeitsschwäche liegt in der fehlenden Trainingsdaten, die sowohl die physische Wahrheit als auch die Skalierbarkeitsanforderungen erfüllen können. Wenn die Branche in diesem Kernmangel an Fähigkeiten steckt, kann jeder Anstieg der Bestellungen und der Auslieferungen auf dem Papier kaum in eine echte Skalierung der Anwendung umgesetzt werden. Der eigentliche Wendepunkt der Branche wird beginnen, wenn es einen grundlegenden Durchbruch bei der Datenversorgung für die Entwicklung der Kernfähigkeiten gibt.

Echte Roboter sind keine Wundermittel, skalierbare Daten treffen auf die Skalengesetzmäßigkeit (Scaling Law)

Nachdem klar ist, dass die fein abgestimmte Interaktionsfähigkeit der Kernengpass für die Umsetzung von Embodied Robotern ist, muss man das Datenstruktur, das diese Fähigkeit unterstützt, weiter untersuchen. Das in der Branche allgemein anerkannte Bewertungsstandard ist die "Datenpyramide".

Diese Pyramide besteht aus drei Ebenen: Die untere Basis besteht aus einer riesigen Menge an öffentlichen Internetdaten und menschlichen Bedienungsvideos, die mittlere Ebene besteht aus simulierten synthetischen Daten, und die Spitze der Pyramide besteht aus den am wertvollsten Daten von der Fernsteuerung von echten Robotern.

Derzeit hängt die Fähigkeit von Embodied Robotern, tiefgreifend mit der physischen Welt zu interagieren und Arbeitsaufgaben auszuführen, hauptsächlich von den Daten in der mittleren Ebene der Pyramide ab, nämlich den Daten von der Fernsteuerung von echten Robotern und den simulierten synthetischen Daten mit physischen Parametern.

Die Daten von der Fernsteuerung von echten Robotern werden durch die Messung von Embodied Robotern in realen Branchenszenerien gewonnen und umfassen fein abgestimmte Daten wie haptische Rückmeldung, Kraftsteuerungsparameter und dynamische Umweltinteraktion. Kurz gesagt, die Daten von der Fernsteuerung von echten Robotern "lehren" den Embodied Robotern, wie man arbeitet, indem man eine Datenannotation um eine einzelne Entität herum durch eine Gruppe von Hunderten von Fernsteuerern durchführt. Die Erfolgsrate bei einzelnen Arbeitsaufgaben ist relativ hoch, und jede Bewegungsspur hat einen menschlichen Einfluss.

Der Kernwert der Daten von der Fernsteuerung von echten Robotern liegt in ihrer hochauflösenden Aufzeichnung der realen physischen Welt. Komplexe physische Interaktionen wie Kontaktkinematik, Reibungsschwankungen, Objektverformung und Kraftrückmeldung in der realen Umwelt werden vollständig in diesen Daten erfasst. Diese physischen Details aus der realen Welt - insbesondere nichtlineare dynamische Parameter wie Kontakt und Reibung - können den Robotern die direkteste und realste Erfahrung bei der Interaktion mit der physischen Welt geben. Dies ist der grundlegende Grund, warum die Daten von der Fernsteuerung von echten Robotern als "Spitze der Pyramide" angesehen werden.

Aber genau wegen ihrer Erfassungsmethode gibt es auch einige Probleme mit den Daten von der Fernsteuerung von echten Robotern.

Derzeit hat sich die Form von Embodied Robotern in der Branche noch nicht festgelegt. Selbst Roboter mit derselben Größe haben unterschiedliche Armlängen und natürlich auch unterschiedliche Bewegungsbahnen. Dies macht es schwierig, die Datenerfassung auf verschiedene Formen zu übertragen. Wenn die Roboterentität sich ändert oder die Kundenanforderungen sich ändern, sind die bisherigen Datenassets schwer wiederverwendbar, was ein "Verkauf von Entitäten" angetriebenes Datenerfassungsmodel erzeugt, anstatt ein "datengetriebenes" Skalierungsmodell.

Zweitens verbraucht die Datenerfassung oft viel Personal und Ressourcen