Tageslohn von 120 Yuan, Datenerfassung für alle. Wer trainiert die nächste Roboterputzfrau?
Das wichtigste Stichwort in der Branche der Embodied Intelligence (körperliche Intelligenz) in diesem Jahr ist Daten.
Dieses Wort erscheint nicht nur in den neuesten wissenschaftlichen Artikeln, in den Präsentationsfolien von Technologieunternehmen, sondern auch in den Anzeigen für Gelegenheitsjobs in einer Stadt in Hubei und in einer kleinen Schulung in einem Dorf in Shaanxi.
Die sogenannten Daten beziehen sich auf Informationen darüber, wie man Kleidung faltet, Blumen gießt, kocht usw. - alles, was in der menschlichen Welt tatsächlich passiert. In diesem Sinne ist jeder normale Mensch mit Handlungsfähigkeit ein Lehrer für Roboter.
Die Modelle werden verbessert, die Algorithmen werden weiterentwickelt. Was wie die neuesten Technologien aussieht, hat sich tatsächlich zu einem großen Experiment entwickelt, an dem die ganze Bevölkerung teilnehmen kann. In diesem Experiment gibt es nicht nur viele Akteure - Roboterhersteller, Datenanbieter, Personalvermittlungsfirmen und flexible Beschäftigte - sondern auch schnelle Veränderungen. Die teuren Aufnahmegeräte, die erst diesen Monat verteilt wurden, werden bereits nächsten Monat durch Mobiltelefone ersetzt.
Yibang AI hat eine tiefe Untersuchung über die aktuelle Situation der Datenakquise in der Embodied - Intelligence - Branche durchgeführt. Es hofft nicht nur, mit dem technologischen Rhythmus Schritt zu halten, sondern auch, dass normale Menschen von den Branchengewinnen profitieren können.
Dieser Artikel umfasst etwa 8.000 Wörter und ist in fünf Teile unterteilt. Zur besseren Lesbarkeit folgt eine Zusammenfassung:
1. Tageslohn von 120 Yuan: Die Welle der Volksdatenerhebung kommt
Es gibt eine massenhafte Rekrutierung von Crowdsourcing - Datenerhebern in ganz China. Sie verwenden Geräte, um Videos zu filmen, entweder zu Hause oder draußen.
2. Daten! Daten! Daten!
Die Embodied - Intelligence - Branche leidet an einem Datenhunger. Die datenerhebung ohne Roboter - Körper hat seit März 2026 einen großen Ausbruch.
3. Die "Zeit der Streitenden Reiche" der Datenerhebungsgeräte
Die Datenerhebungsgeräte haben drei Iterationen durchlaufen. Die Aufnahmen aus der ersten Person des Menschen sind am meisten im Fokus.
4. Ein Geschäft mit 100 % Gewinnspanne
Das Geschäft der Datenerhebung hat eine hohe Gewinnspanne, aber das Crowdsourcing - Modell bringt auch viele Probleme mit sich.
5. Technologischer Wandel: VLA oder Weltmodell?
Hinter der Welle der Crowdsourcing - Datenerhebung stehen die Änderung der Algorithmen und die Förderung durch Kapital.
Tageslohn von 120 Yuan: Die Welle der Volksdatenerhebung kommt
"Ich werde jetzt T - Shirts falten." Zhang Yue aus Hebei trägt einen elektronischen Kopfhörer mit ihrem Apple - Handy darauf und hält zwei speziell hergestellte Greifer in der Hand. Sie steht vor dem Bett in ihrem Schlafzimmer und stellt sich mit einer gewissen Zeremoniosität ihrer Arbeit gegenüber.
Falten von Kleidung ist normalerweise kein Problem, aber die Greifer sind schwer zu kontrollieren, und die Ecken sind immer uneben. Sie muss es mehrmals versuchen. Nach dem Falten von vier oder fünf Stücken fühlt sie, dass ihre Hände anschwellen.
Nachdem sie die Kleidung auf dem Bett gefaltet hat, gibt es eine Stimme auf ihrem Handy, die sie auffordert, den Ort zu wechseln. An diesem Tag faltet Zhang Yue Kleidung in verschiedenen Szenarien, wie im Schlafzimmer, im Arbeitszimmer, im Wohnzimmer, auf dem Tisch, auf dem Bett, auf dem Boden, am Fensterbrett, bei Licht oder Tageslicht. Ihr Handy erinnert sie auch daran, verschiedene Arten und Farben von Kleidung zu falten und nicht immer die gleiche Kleidung zu falten.
App für die Datenerhebung in der Embodied Intelligence
Was Zhang Yue tut, ist die Datenerhebung für die Embodied Intelligence. Das heißt, ihre Handlungen beim Falten von Kleidung werden über die Kamera des Handys und die Greifer als Daten erfasst. Nach der Annotation und Verarbeitung werden diese Daten zu Trainingsmaterial für Roboter, bis ein Roboter eines Tages auch lernen kann, Kleidung zu falten.
Im Jahr 2026 wurden die Menschen in ganz China von Robotern fasziniert, die Kampfkunst können und laufen können. Aber für Roboter ist es immer noch schwierig, Arbeit zu verrichten. Und der größte Hürde für das Lernen von Arbeitsfähigkeiten ist die Datenbeschaffung. Woher kommen die Daten? Die Lösung ist, die Masse zu mobilisieren.
Zhang Yue, in ihren frühen 30ern, ist eine Hausfrau und nimmt gelegentlich Gelegenheitsjobs an, um das Haushaltsbudget aufzubessern. Im März hat sie von einer vertrauten Part - Time - Gruppe diese Aufgabe der Embodied - Datenakquise bekommen: Sie kann zu Hause arbeiten und bekommt 30 Yuan pro Stunde. Nach der Anmeldung hat sie eine halbtägige Schulung besucht, die die Installation der Datenerhebungssoftware (eine eigene App, die nicht im App Store erhältlich ist und nur vor Ort installiert und registriert werden kann, mit Zugangsberechtigung von der Backend - Seite), die Verwendung der Greifer und die Aufnahme von Videos nach den Anforderungen umfasst. Nach einer halben Stunde Übung kann sie die Geräte nach Hause nehmen.
Die Datenerhebungssoftware veröffentlicht verschiedene Aufgaben, einschließlich Reinigungsarbeiten (Staubsaugen, Wischen, Fensterputzen, Geschirrspülen, Reinigen von Tischen/Badezimmern), Kleiderbehandlung (Falten, Trocknen, Aufbewahren, Bügeln), Gegenstandsorganisation (Aufstellen von Gegenständen, Kategorisierung, Abholen und Ablegen von Waren, Ordnen von Büchern, Aufräumen des Tisches, Regalorganisation), Kochen (Waschen und Schneiden von Gemüse, Aufräumen nach dem Essen, Benutzen von Küchengeräten, Zubereiten von Getränken, Kochen) und tägliche Pflege (Öffnen und Schließen von Fenstern und Türen, Übergeben von Gegenständen, Entsorgen von Müll, Gießen von Blumen, Pflegen von Haustieren) usw. Später wurden auch Aufgaben wie Innenausstattung, Bauen mit Steinen, Sticken und Papierfalten hinzugefügt.
Zhang Yue nimmt jeden Tag Aufgaben an, sucht einen geeigneten Ort für die Aufnahme, öffnet die App und macht Hausarbeiten mit den Greifern, während sie aufnimmt. Nach den Anforderungen muss sie mindestens 8 Stunden am Tag filmen, und jeder Videoclip muss mindestens 2 Minuten lang sein. Nach der Aufnahme lädt sie die Videos in Massen hoch. Die effektive Aufnahmedauer beträgt weniger als die Hälfte der 8 Stunden. Bei 30 Yuan pro Stunde verdient sie etwa 120 Yuan pro Tag.
Axin aus Hubei erinnert sich, dass im November 2025 erste Anzeigen für die Datenerhebung in der Embodied Intelligence in der Part - Time - Gruppe erschienen. Bis März 2026 gab es einen Ansturm an Anzeigen für Datenerheber. Einige Stellenausschreibungen fordern die Fernsteuerung von Robotern an einem zentralen Ort, mit einem Lohn von 180 - 250 Yuan pro Tag. Andere ermöglichen die Arbeit zu Hause mit tragbarem Geräten (Kopfhörer, Greifer usw.), mit einem Tageslohn von 120 Yuan plus Leistungsprämie.
Seit März dieses Jahres haben Datenerhebungsunternehmen über Personalvermittlungsfirmen massenhaft Crowdsourcing - Datenerheber in ganz China rekrutiert. Für normale Menschen, die noch nicht verstehen, wie Roboter funktionieren, ist die Datenerhebung ein Job mit niedrigem Eintrittshindernis und viel Neugierreiz. In Städten niedrigerer Stufe ist ein Tageslohn von 120 Yuan auch nicht schlecht.
Manche sagen, dass die Datenerhebungsmitarbeiter im März in einem Dorf eine Schulung durchgeführt haben. Sie haben nach den Anforderungen einen halben Stunde lang ein Video aufgenommen und abgegeben. Aber später, weil es zu wenige Teilnehmer im Dorf gab, hat der dort stationierte Rekrutierungsmitarbeiter die Greifer - Geräte mitgenommen und gegangen. Andere sagen, dass sie die Schulung besucht haben, aber wegen des Mangels an Greifern nicht an der Datenerhebung teilnehmen konnten. Es gibt auch Leute, die online darum bitten, ihrer pensionierten Mutter die Möglichkeit zu geben, an dieser modernen Branche teilzunehmen.
Meimei, eine HR - Mitarbeiterin einer Personalvermittlungsfirma, sagt Yibang AI, dass die Firma derzeit zwei Phasen des Datenerhebungsprojekts plant. Die erste Phase konzentriert sich auf häusliche Szenarien, und die zweite Phase, genannt "Weltinteraktion", bezieht sich auf alltägliche Verhaltensweisen in öffentlichen Außenbereichen, wie Radfahren, Spazierengehen, Sport im Park, Einkaufen, Schaufensterbummeln, Abholen von Paketen, Entsorgen von Müll, Spazieren gehen mit dem Hund usw. "Theoretisch können alle Outdoor - Aktivitäten aufgenommen werden, aber um Kameraerregungen zu vermeiden, wird die Aufnahme von heftigen oder gegenständlichen Sportarten nicht empfohlen." Meimei weist darauf hin.
Die Aufnahmebedingungen sind, dass das Mikrofon eingeschaltet sein muss, um die Umgebungsgeräusche aufzunehmen. Es muss mindestens alle 3 Minuten eine Interaktion mit der Umgebung geben. Gelegentlich kann auch andere Personen im Bild sein, aber es sollte vermieden werden, andere Personen über einen langen Zeitraum aufzunehmen, weil die Entfernung der persönlichen Daten später schwierig sein wird.
Ein Angestellter eines KFC in Peking nimmt Daten auf, während er mit einem Greifer den Tisch wischt
Auch die Datenerhebung im Ausland ist sehr aktiv: Firmen wie Micro1 und Scale AI haben weltweit Gelegenheitsarbeiter rekrutiert, um Videos von Hausarbeiten aufzunehmen. Arbeiter in Kenia, der Philippinen, Indien usw. tragen Kopfkameras. DoorDash hat im März die App "Tasks" eingeführt, damit ihre Lieferfahrer auch Videos von Hausarbeiten aufnehmen können.
Eine gewaltige Welle der Volksdatenerhebung hat begonnen.
Daten! Daten! Daten!
Die Volksdatenerhebung kommt aus dem Datenhunger in der aktuellen Embodied - Intelligence - Branche.
"Die großen Nachfrager sind in einem Zustand, dass sie so viel wie möglich kaufen und sofort brauchen, sobald die Daten verfügbar sind." So sagt Yao Maoqing, Partner von Zhiyuan Robotics, Vorsitzender und CEO von Mifeng Technology. Unternehmen, die an der Entwicklung des Embodied - Intelligenz - Gehirns, Roboterhersteller und Firmen, die an der Entwicklung von multimodalen Großmodellen und Weltmodellen arbeiten, brauchen alle Daten. Derzeit sind die auf dem Markt verfügbaren Datensätze etwa einige hunderttausend Stunden lang, und die Nachfrage nach hochwertigen Daten übersteigt bei weitem das Angebot.
Die herrschende Meinung ist, dass für das Training eines generalisierbaren Embodied - Großmodells mindestens 10 Millionen Stunden an Daten erforderlich sind, und für das Erreichen des intelligenten Aufblitzens werden 10 Milliarden Stunden an Daten benötigt. Genau wie ein menschliches Baby, das von der Geburt an lernt, zu gehen, zu sprechen, sich anzuziehen, zu essen und Hausarbeiten zu verrichten, muss ein Roboter auch in einer realen Umgebung beobachten, imitieren und wiederholt üben, um Fähigkeiten zu erlernen. Wenn ein Roboter in der Lage sein soll, wie eine Haushaltshilfe zu Hause zu kochen, zu waschen und aufzuräumen, kann er diesen Prozess nicht umgehen.
Das Gebiet des autonomen Fahrens hat ebenfalls einen Prozess von der Datenlosigkeit bis zur Datenreichhaltigkeit durchlaufen. Der erste Datensatz für autonome Fahrzeuge, nuScenes, hat 1.000 Szenarien mit manueller Annotation erfasst, aber die Gesamtlaufzeit beträgt nur 5,5 Stunden. Automobilhersteller wie Tesla sammeln Daten über die bereits verkauften Serienfahrzeuge. Diese kostengünstigere und produktivere Methode hat es Tesla ermöglicht, etwa 10 Milliarden Kilometer an Fahrdaten für die intelligente Fahrerassistenz zu sammeln. Aber dieser Prozess hat fast 10 Jahre gedauert.
Offensichtlich hat die Datenakkumulation in der Embodied - Intelligence - Branche erst gerade begonnen. He Hongling, Chief Operating Officer von DataTang, sagt Yibang AI, dass die Trainingsmethode in der Embodied - Intelligence ähnlich der im autonomen Fahren ist, aber das Problem besteht darin, dass man Autos erst verkaufen kann und dann Daten sammeln, Algorithmen verbessern und die Fähigkeit der intelligenten Fahrerassistenz aktualisieren kann. "Bei der Embodied - Intelligence gibt es diesen Logik nicht. Ich werde nicht einen Roboter kaufen, der nichts kann, und ihn dann ferngesteuert arbeiten lassen."
He Hongling sagt, dass nach seinen Kenntnissen 80 % der Daten aus häuslichen Szenarien, 10 % aus Supermärkten und 10 % aus Fabriken stammen. Der Grund ist leicht zu verstehen. Die langfristigen Bedürfnisse in Hausarbeit, Pflege und Altenpflege bedürfen dringend neuer technologischer Lösungen. Die Komplexität und Vielfalt der Aufgaben in häuslichen Szenarien sowie die entsprechenden Probleme der Privatsphäre und Sicherheit erfordern, dass Roboter mehr lernen und trainieren müssen. Im Supermarktszenario ist der Personalkosten noch akzeptabel, und es gibt keine starke Motivation für die Substitution in der kurzen Frist. In Fabriken gibt es bereits etablierte Automatisierungslösungen, und die Aufgaben sind relativ standardisiert, so dass die Nachfrage nach Embodied - Intelligence - Daten nicht sehr hoch ist.
Dies ist ein Problem des "Henne - oder - Ei - Paradoxons": Die Akkumulation von Daten erfordert, dass Roboter in Massen in Haushalte eindringen, aber die Brauchbarkeit von Robotern hängt von genügend Daten aus häuslichen Szenarien ab.
Die von der Branche anerkannte Embodied - Intelligence - Daten können grob in drei Ebenen unterteilt werden: Die unterste Ebene sind Internet - Videos und synthetische Simulationsdaten; die mittlere Ebene sind daten ohne Roboter - Körper, die von Datenerhebern mit tragbaren Geräten bei der Ausführung bestimmter Aufgaben erfasst werden; die oberste Ebene sind Daten von echten Robotern, die von Mitarbeitern durch Fernsteuerung von Robotern gewonnen werden. In dieser Datenpyramide werden die Daten von unten nach oben qualitativ besser, in kleinerer Menge und teurer.
Bis vor diesem Jahr war die Datenerhebung in zentralisierten Datenerhebungsfabriken, in denen Rob