Stundensatz von 800 Yuan, Mindestabschluss: Magister: Was machen die heiß begehrten AI-Daten-"Alchemisten" in großen Unternehmen eigentlich?
In der traditionellen Wahrnehmung der Öffentlichkeit hat die AI-Datenbeschriftung immer eine Art „digitale Fließbandarbeit“ gehabt.
Es bedeutet normalerweise, vor einem Computer zu sitzen und Bilder, Sprache oder Texte wiederholt zu verarbeiten. Beispielsweise müssen bei selbstfahrenden Fahrzeugen die Fußgänger und Fahrzeuge in den Bildern einzeln markiert werden, die Untertitel für Sprachensysteme Satz für Satz korrigiert werden oder die Daten gemäß festgelegten Regeln mit Labels versehen werden. Mit ihren Eigenschaften wie niedrigem Eintrittsschwellenwert, geringen Löhnen und mechanischer Arbeit kann man es mit einer „Elektronikfabrik“ in der AI-Zeit vergleichen.
Nachdem die Welle der großen Modelle die AI-Branche erfasst hat, hat sich in der Datenbeschriftungsbranche eine überraschende Veränderung ergeben. Obwohl es immer noch einen großen Bedarf an traditioneller Datenbeschriftungsarbeit gibt, suchen immer mehr AI-Unternehmen, insbesondere die führenden Anbieter von großen Modellen, nach einem neuen Typ von Beschriftungsmitarbeitern mit höherem technischem Niveau.
Heute tragen einige relevante Positionen in Unternehmen wie Alibaba, ByteDance, DeepSeek und MiniMax nicht mehr den Namen „Datenbeschriftung“, sondern heißen stattdessen „Daten-Allwissender“, „AI-Fragenexperte“, „Daten-Alchemist“ usw.
Auch die Anforderungen an die Fähigkeiten haben sich geändert. Bei vielen Positionen wird ein Masterabschluss oder höher gefordert. Personen mit einem Fachhintergrund in Recht, Finanzen, Medizin, Programmierung, Linguistik oder mit reichlicher Berufserfahrung und Wettbewerbserfahrung sind besonders gefragt.
Nach der Erhöhung der Anforderungen haben sich auch die Gehaltsbedingungen dieser Positionen erheblich verbessert. Auf Jobbörsen wie Boss Zhipin werden für Aufgaben in den Bereichen Finanzen, Recht, Medizin usw. Stundenlöhne von 500 bis 800 Yuan angeboten. Selbst bei Outsourcing-Positionen in großen Unternehmen liegt das monatliche Gehalt für diese Positionen bei etwa 8.000 bis 10.000 Yuan, im Vergleich zu den 3.000 bis 4.000 Yuan bei der traditionellen Datenbeschriftung.
Die Datenbeschriftung in der Ära der großen Modelle wird zu einem viel komplexeren Beruf. Hinter dieser Veränderung verbirgt sich eigentlich eine Wende in der AI-Industrie selbst.
01. Warum braucht die AI-Datenbeschriftung plötzlich Experten?
Das Datenlieferungsmodell in der Branche der großen Modelle ändert sich.
Zu Beginn war das Training der großen Modelle stark von einer riesigen Menge an öffentlichen Daten abhängig. Die Anbieter haben Texte, Bilder und Videos aus dem Internet gesammelt, damit die Modelle die Sprachgesetze und Weltwissen lernen können. In dieser Phase bestimmten die Rechenleistung, die Parameter und die Datenmenge in hohem Maße die obere Grenze der Modellfähigkeiten. Dies bildet auch das Scaling Law in der Vor-Trainingsphase.
Allerdings sind die Daten im Internet endlich. Im Jahr 2024 hat Ilya Sutskever, der ehemalige Chefwissenschaftler von OpenAI, die Meinung vertreten, dass die Daten im Internet für das Training von Modellen bald aufgebraucht sein werden, was das bisher bekannte Vor-Trainingsparadigma beenden könnte.
Speziell bei chinesischen Daten könnte dieses Problem der Datenknappheit noch gravierender sein. Die „Weiße Buch über die Trainingsdaten für große Modelle“ der Alibaba Research Institute zeigt, dass es einen deutlichen Unterschied im Anteil der chinesischen und englischen Sprachmaterialien im Internet gibt. Der Anteil der englischen Sprachmaterialien beträgt 59,8 %, während der Anteil der chinesischen Sprachmaterialien nur 1,3 % beträgt.
Zusätzlich sind die Internetdaten nicht von Natur aus hochwertige Ressourcen. Ein Großteil des Inhalts besteht aus wiederholten, verrauschten, fehlerhaften oder sogar widersprüchlichen Sprachmaterialien. Die Modelle können zwar anhand der Internetdaten Sprachmuster lernen, aber es ist nicht gewährleistet, dass sie zu zuverlässigen Urteilen kommen können.
In den Anforderungen an die Datenbeschriftungspositionen einer großen Firma wird die Knappheit an hochwertigen chinesischen Daten erwähnt.
Obwohl synthetische Daten als Lösung für dieses Problem angesehen werden, können sie das Problem nicht grundlegend lösen. Die von den Modellen generierten Daten sind auf ihre eigenen Fähigkeiten beschränkt. Sie können das vorhandene Wissen erweitern, aber es ist schwierig, Urteilsstandards zu schaffen, die über ihre eigene Wahrnehmung hinausgehen.
Daher wird die Scaling in der Nach-Trainingsphase immer wichtiger in der Branche. In dieser Phase hängt die Verbesserung der Modellfähigkeiten zunehmend von der menschlichen Rückmeldung ab, einschließlich der Modellbewertung, der Aufbau von Präferenzdaten und der RLHF-Arbeit. Die Modelle müssen von Menschen erfahren, welche Antworten besser sind, welche Logik der Realität entspricht und welche Ausdrucksweise den fachlichen Standards entspricht.
In professionellen Bereichen wie Finanzen, Recht und Medizin sowie bei komplexen Aufgaben wie Inferenz und kreativem Schreiben können nur Personen mit tiefem Fachwissen und Urteilsfähigkeit wirklich hochwertige Daten produzieren, um die Fähigkeiten der Modelle zu verbessern.
02. Stundensatz von bis zu 500 Yuan, aber der akademische Grad ist kein Garant
Mit der zunehmenden Wichtigkeit der Nach-Trainingsphase haben seit der zweiten Hälfte des Jahres 2025 große chinesische Unternehmen wie ByteDance und Alibaba sowie führende AI-Anbieter wie DeepSeek, MiniMax und Zhipu auf Jobbörsen, in Hochschulcommunities und in sozialen Medien ihre Expertendatenplattformen oder hochqualifizierten Datenbeschriftungspositionen beworben, um mehr Fachkräfte anzuziehen.
Um die konkreten Inhalte dieser neuen Art von Datenbeschriftungsarbeit zu verstehen, hat Zhi Dongxi zwei Teilnehmer interviewt. Sie haben unterschiedliche Wege in die Branche gefunden, sich in verschiedenen Berufsphasen befinden und auch unterschiedliche Eindrücke von der Arbeit, aber sie alle tun dasselbe: Sie helfen den Modellen zu lernen, wie man urteilt, versteht und ausdrückt.
Letztes Jahr hat Molly, die über mehr als zehn Jahre Berufserfahrung in den Bereichen Finanzen und Internet hat, auf einer sozialen Plattform die Einstellungsanzeige der ByteDance-Expertendatenplattform Xpert gesehen und daraufhin eine Bewerbung abgeschickt.
Die ByteDance-Expertendatenbeschriftungsplattform Xpert
Bevor sie die Plattform tatsächlich betreten konnte, musste sie zuerst einen Test bestehen. Die Bewerber müssen nicht nur ihren Fachhintergrund beweisen, sondern auch Fragen entwerfen, die die Modelle „ausfordern“. Die Plattform ruft mehrere Modelle gleichzeitig auf, um die Fragen zu überprüfen. Erst wenn mindestens zwei Modelle eine Frage falsch beantworten, hat die Frage die Chance, als gültig zu gelten.
Molly findet den Test nicht schwierig, aber sie hat bemerkt, dass viele Bewerber in diesem Abschnitt scheitern. In ihrer Meinung liegt der Grund nicht nur im akademischen Grad, sondern in der realen Berufserfahrung. „Viele Magister- und Doktoranden haben keine echte Berufserfahrung, daher ist es für sie schwierig, Fragen mit hohem fachlichem Niveau zu entwerfen.“ sagte sie.
Schließlich ist Molly in die Expertenaufgabengruppe für das Fachgebiet Wirtschaft und Finanzen eingetreten. Sie hat erwähnt, dass diese Aufgaben oft realen Geschäftsszenarien entsprechen. Nehmen wir das Szenario der Investitiondue diligence als Beispiel. Mehrere Modelle simulieren die Bewertung von Projekten durch Institutionen und generieren mehrere Analyseberichte mit Tausenden von Wörtern über Risiken, Betrieb und Geschäftsmöglichkeiten.
Ihre Aufgabe besteht darin, aus der Perspektive eines Finanzfachmanns diese Ergebnisse zu vergleichen und zu beurteilen: Welche Analyse entspricht am besten der realen Geschäftlogik, ob die Risikoeinschätzung ausreichend ist und ob der Bewertungsrahmen der tatsächlichen Entscheidungsfindung entspricht. Nach der Auswahl ist die Arbeit noch nicht beendet. Sie muss den Beurteilungsprozess weiter zerlegen, die Gründe aus mehreren Perspektiven erklären und die Probleme in anderen Antworten aufzeigen.
Diese Art von Aufgaben wird nach Stundenlohn bezahlt und wird gemäß den Testergebnissen und den fachlichen Fähigkeiten eingestuft. Molly hat bemerkt, dass im Finanzbereich Stundenlöhne von 300 bis 500 Yuan nicht ungewöhnlich sind.
Es ist zu beachten, dass der Stundenlohn dieser Arbeit nicht direkt in ein monatliches Gehalt umgerechnet werden kann. Das Gehalt hängt vollständig von der Arbeitsmenge ab. Wie viele Aufgaben ein Experte pro Tag annimmt und wie viele Aufgaben die Plattform pro Tag zur Verfügung stellt, beeinflussen das Gesamtgehalt eines Experten über einen bestimmten Zeitraum.
Auf Xpert können die meisten Aufgaben online erledigt werden, aber es ist erforderlich, den gesamten Bildschirm aufzunehmen, um Betrug zu vermeiden und sicherzustellen, dass die Beurteilungen von echten Experten stammen und nicht von anderen AI-Tools.
In Mollys Meinung ist die Kernfähigkeit für diese Arbeit nicht der akademische Grad, sondern die langjährige Berufserfahrung. Nur wer wirklich Investitionen gemacht und Bewertungen durchgeführt hat, weiß, wo die Probleme der Modelle liegen.
Abgesehen von den finanzbezogenen Aufgaben wählt Molly manchmal auch bewusst Aufgaben mit niedrigerem Stundenlohn, die logische Fragen beinhalten. In ihrer Ansicht sind diese Aufgaben eher wie Brettspiele, daher macht es ihr Spaß, sie zu erledigen.
Als wir sie gefragt haben, ob sie diese Arbeit genießt, hat sie beinahe ohne Zögern geantwortet: „Es macht mir sehr viel Spaß.“
03. Hinter der Kreativität ist die Datenbeschriftung immer noch Fließbandarbeit?
Nicht alle Menschen sehen diese Arbeit wie Molly, als etwas, das man genießen kann.
Yuan Xing, der von der China University of Mining and Technology abgeschlossen hat, ist im Mai 2025 als Outsourcing-Mitarbeiter in ein großes Internetunternehmen eingetreten und hat sich sechs Monate später von der Arbeit getrennt. Dies war seine erste Arbeit in seinem Leben. Er sagte: „Vor der Einstellung hatte ich keine Berufserfahrung und auch keine Erfahrung in der Datenbeschriftung.“
Die AI-Romanprojektgruppe, in der er arbeitete, war erst kürzlich gegründet und hatte einen Mangel an Mitarbeitern. Im Gegensatz zu den etablierten Teams, die bevorzugt Mitarbeiter mit Beschriftungserfahrung anwerben, legte diese Gruppe mehr Wert auf den Schreibhintergrund.
Yuan Xing erfüllte genau diese Anforderung. Er hat Veröffentlichungen und einige Schreibpreise gewonnen, daher hat er trotz fehlender Beschriftungserfahrung die Bewerbung erfolgreich bestanden und ist in das Team eingetreten.
Aber nachdem er tatsächlich eingestellt wurde, hat er festgestellt, dass der tatsächliche Inhalt dieser Arbeit nicht vollständig mit der Vorstellung der Öffentlichkeit von „AI-Romanen“ übereinstimmt: Hinter der Kreativität liegt im Wesentlichen ein hochgradig segmentierter Datenproduktionsprozess.
Das Team, in dem Yuan Xing arbeitete, musste gleichzeitig die Ergebnisse mehrerer Modelle verarbeiten: Dasselbe Romaninstruktionsset wurde an das Modell des Unternehmens und andere Konkurrenzmodelle weitergeleitet. Die Beschriftungsmitarbeiter waren dann dafür verantwortlich, die Ergebnisse zeilenweise zu lesen, zu vergleichen und die Probleme gemäß den Regeln zu identifizieren.
Diese Arbeit erfordert ein hohes Maß an Fachfähigkeiten. Etwa die Hälfte der Mitarbeiter im Team hat Schreibarbeit in Drehbuchproduktionen gemacht, die anderen haben Erfahrungen in der Online-Romanerstellung oder in der Medienbeitragsabgabe. Die Beschriftungsmitarbeiter müssen beurteilen, ob das Verhalten der Charaktere den Vorgaben entspricht, ob der Handlungsverlauf logisch ist und ob die Konflikte plausibel sind. Alles wird in detaillierte Bewertungsstandards zerlegt.
Nach der Identifizierung der Probleme müssen die Beschriftungsmitarbeiter die Ausgabe der Modelle bewerten und in einigen Projekten den Text manuell bearbeiten, indem sie redundante Beschreibungen entfernen, logische Lücken beheben oder die Struktur neu anpassen. Eine dieser Aufgaben ist es, aus einem Roman mit mehreren Kapiteln und Tausenden von Wörtern einen strukturierten Gliederungsplan zu erstellen, der dann als Dateninput für die Erweiterung und das Training der Modelle dient.
Im Wesentlichen handelt es sich um eine Fließbandarbeit, die literarische Urteilsfähigkeit erfordert. Die Aufgaben sind hochgradig wiederholend und standardisiert. Yuan Xing ist der Meinung, dass die Beschriftungsmitarbeiter in der Ökosystemkette an einem sehr niedrigen Rang stehen.
Yuan Xing hat angegeben, dass seine Arbeitszeit von 9:30 Uhr morgens bis 18:30 Uhr abends beträgt, mit einer 90-minütigen Pause am Mittag. Die Arbeitszeiten sind flexibel, und es wird normalerweise nicht überstunden gearbeitet.
Trotz der Anforderungen an das literarische Ästhetikverständnis und die Schreibfähigkeit ist Yuan Xings Gehalt nicht sehr hoch. Er arbeitet in Peking und bekommt monatlich etwa 8.000 Yuan nach Abzug der Steuern. Die Sozialversicherungen werden nach den lokalen Mindeststandards bezahlt.
04. Dieselbe Datenbeschriftung, unterschiedliche berufliche Realität
Obwohl beide in der Datenbeschriftung tätig sind, befinden sich Molly und Yuan Xing in zwei völlig verschiedenen Welten: Auf der einen Seite gibt es hochprofessionelle Positionen, in denen man ein Gefühl der Wertschätzung hat, auf der anderen Seite gibt es Positionen, die zwar auch Fachkenntnisse erfordern, aber eher wie eine langweilige und bedrückende Fließbandarbeit wirken.
Diese Differenz hat auch ihre unterschiedliche Wahrnehmung der AI-Branche geprägt.
Molly hat eine deutliche Zustimmung zu dieser Arbeit. In ihrer Ansicht ist die Erzeugung von Daten und das Training von AI im Wesentlichen ein Prozess des Wissensausgleichs. Finanzexperten, Juristen, Psychologen geben ihre Erfahrungen an die Modelle weiter, und die Modelle geben es dann kostengünstiger an die Gesellschaft zurück.
In den letzten zwölf Monaten hat sie deutlich bemerkt, dass die Modelle immer schneller verbessert werden. Im Finanzbereich ändern sich die Regulierungsvorschriften und die Branche häufig. Früher konnten die Model