StartseiteArtikel

Wie haben Menschen es geschafft, indem sie sich "veräußerten", kluge KI-Systeme zu entwickeln?

凤凰网科技2026-06-01 19:33
AI-Trainer sind möglicherweise die ersten Menschen in der Geschichte der Menschheit, die systematisch Urteilsvermögen an Maschinen übertragen.

Lin Zhixia macht jeden Tag dasselbe: Sie lehrt KI, sich wie ein Mensch zu verhalten.

Sie hört wiederholt die von dem Modell generierten Yue-Dialekt-Sprachanhänge, um zu beurteilen, was unnatürlich klingt, wo Maschinenklang auftritt und wo es nicht wie ein echter Yue-Dialekt-Muttersprachler klingt. Manchmal kann sie sogar die geringste Nasalabweichung eines Zeichens oder einen winzigen Schluckfehler erkennen.

In den letzten zwei Jahren hat sie diese Erfahrungen Schritt für Schritt an die KI weitergegeben. Und sie hat mit eigenen Augen gesehen, wie die KI immer “menschlicher” wird.

Zum Ende von 2025 konnte das von ihr trainierte Sprachmodell bereits die meisten Yue-Dialekt-Szenarien flüssig umsetzen. Die Probleme, die früher ständig korrigiert werden mussten, traten immer seltener auf.

Mit dem Fortschritt des Modells begann auch eine subtile Emotion aufzutauchen. Denn sie hatte immer größere Schwierigkeiten zu entscheiden, ob sie die KI trainierte oder etwas, das sie in Zukunft vielleicht ersetzen könnte.

Diese Widersprüche gehören nicht nur Lin Zhixia. Von den Datenstrategen großer Internet-Unternehmen bis hin zu Doktoranden, die in ihrer Freizeit Rubriken (Bewertungsstandards) schreiben; von Warenbildprüfern bis hin zu Sprachmodell-Bewertern - eine neue Gruppe von Arbeitnehmern macht dasselbe: Sie zerlegen ihr Wissen, ihre Erfahrungen und ihre Urteilsfähigkeit in eine Form, die Maschinen lernen können.

Sie sind KI-Trainer. Und sie sind vielleicht die ersten Menschen, die selbst an der Herstellung ihrer eigenen Ersatzpersonen beteiligt sind.

Wenn man die Zeitspanne betrachtet, ist dies nicht nur eine Geschichte über Berufsveränderungen, sondern eher ein Prozess, bei dem die Menschen erstmals in großem Maßstab ihre Urteilsfähigkeit an Maschinen übergeben.

Von der Kategorisierung von Katzenbildern bis zum Lehren der KI, zu denken

Der Beruf des KI-Trainers ist nicht erst in der ChatGPT-Ära entstanden.

Um 2010 herum, als der Deep Learning-Ansatz aufkam, traten bereits zahlreiche Datenannotierer in der KI-Industrie auf. Sie zeichneten Rahmen um Autos und Ampeln in Bildern, markierten die Aussprache von Sprachdaten und fügten Straßenverkehrsinformationen zu Karten-Daten hinzu.

Damals war es in der Branche allgemein anerkannt, dass “Daten das Öl der neuen Zeit” seien.

Der ImageNet-Wettbewerb im Jahr 2012 war ein entscheidender Wendepunkt für die Entwicklung des Deep Learning. In den folgenden zehn Jahren begannen globale Technologieunternehmen, wild nach Daten zu suchen. In China entstanden auch eine Reihe von speziellen Datenannotierungsunternehmen, die in Gebieten wie Guizhou, Henan und Shanxi eine riesige Datenannotierungsindustrie aufbauten.

Die Annotierer damals waren eher wie Fließbandarbeiter. Wenn das Modell keine Katzen erkennen konnte, sagten die Menschen ihm, was eine Katze ist; wenn es keine Autos erkennen konnte, zeichneten die Menschen Rahmen um die Autos in den Bildern.

Die Aufgabe der KI-Trainer war es, den Maschinen die Antworten zu geben.

Als Lin Zhixia das KI-Forschungsinstitut von iFlytek betrat, hatte auch ihre Arbeit viel von dieser “Fließbandarbeit”.

Jeden Tag musste sie Sprachmaterialien auf Plattformen wie Bilibili und Himalaya suchen, Videoinhalte mit reiner menschlicher Stimme, ohne Hintergrundgeräusche und einheitlicher Stimme auswählen und dann zu Datensätzen für das Training zusammenstellen. “Anfangs war es eigentlich nicht so kompliziert”, sagte sie. “Es ging vor allem um die Vorbereitung der Daten.”

Bild | Bildmaterial von der Befragten

Aber bald bemerkte sie, dass sich die Dinge änderten. Als sie 2024 das Projekt übernahm, war das von ihrem Team trainierte Yue-Dialekt-Sprachmodell noch ziemlich ungeschickt. Die Maschine sprach stockend, die Sprechgeschwindigkeit wechselte ständig, die Tonlage war instabil und viele Sätze klangen immer noch sehr mechanisch. “Man hört sofort, dass es eine Maschine ist.”

Damals befanden sich viele chinesische Sprachmodelle noch im Nachholjagd. “Es ist unrealistisch, etwas, das die USA 20 Jahre lang entwickelt haben, in fünf oder sechs Jahren einzuholen”, sagte Lin Zhixia.

Aber die KI entwickelte sich viel schneller, als viele erwartet hatten. Ein Jahr später, als sie das Projekt verließ, konnte dasselbe Modell bereits die meisten Yue-Dialekt-Ausdrücke flüssig umsetzen. Die Intonation, die Pausen und der Rhythmus waren immer menschlicher und konnten sogar die Akzentmerkmale verschiedener Regionen imitieren. “Es wird wirklich immer menschlicher.”

Ähnliche Veränderungen ereigneten sich auch bei JD.com. Chen Ruoning begann 2025 bei JD.com zu arbeiten und war für die Annotation von Warenbildern zuständig. Als sie neu eingestellt wurde, waren die Anforderungen an die KI zur Bildgenerierung noch nicht sehr hoch. “Wenn die KI das Produkt aus dem Bild herausschneiden und einen neuen Hintergrund hinzufügen konnte, waren wir schon zufrieden.”

Aber nach nur sechs Monaten war die Situation vollkommen anders. Das Nano Banana-Modell von Google hat alles verändert. Früher mussten viele Szenarien manuell gestaltet und nachbearbeitet werden, aber jetzt kann das Modell diese automatisch generieren. Wenn man ihm eine Waschmaschine gibt, kann es eine Szene generieren, in der ein Benutzer die Waschmaschinentür öffnet; wenn man ihm ein Kleidungsstück gibt, kann es automatisch einen Model, das Licht und die Präsentationsumgebung auswählen.

Wichtiger noch ist, dass das Modell beginnt, die Bedeutung hinter den Bildern zu verstehen. Früher war die Fähigkeit der Großmodelle, Chinesisch zu verarbeiten, sehr schlecht, und die Texte in den Warenbildern wurden oft als unleserliche Zeichen generiert. Viele E-Commerce-Teams gingen sogar davon aus, “die KI nicht schreiben zu lassen”.

Heute kann das Modell nicht nur die Texte auf den Warenbildern erkennen, sondern auch die Verkaufsargumente hinter den Wareninformationen verstehen. Wenn es eine Emailbecher erkennt, generiert es Beschreibungen wie “langlebig” und “bruchfest”; wenn es Babyartikel erkennt, passt es auch automatisch den Stil der Texte an.

Die Veränderungen geschah so schnell, dass viele Trainingsregeln ständig ungültig wurden.

Der außenstehende Annotierer Meng Lin spürt dies besonders. Als er 2025 in die Branche kam, war er für zahlreiche Multiple-Choice-Trainingsaufgaben zuständig. Bei der Einstellung der Regeln musste fast jedes Mal geschrieben werden: “Die Antwort darf nicht außerhalb des gegebenen Auswahlbereichs liegen.” Denn das Modell schuf oft eine vierte Antwort außerhalb der drei gegebenen Optionen.

Aber Anfang 2026 wurde diese Regel aufgehoben. “Die Qualitätskontrolle hat uns einfach gesagt, dass wir es nicht mehr schreiben müssen”, sagte er. “Weil das Modell diese triviale Fehler jetzt nicht mehr macht.”

Das Modell überwindet immer mehr Fehler, die früher manuell korrigiert werden mussten. Dies bedeutet auch, dass die Trainer neue Probleme finden müssen. Die Frage wandelt sich von “Was ist die richtige Antwort” zu “Was ist die bessere Antwort”.

Hinter dieser Veränderung steckt eine Wende, die die gesamte Großmodell-Industrie durchmacht.

Die eigene Urteilsfähigkeit an Großmodelle abgeben

Wenn man sagt, dass die Vor-Trainingszeit der KI Wissen beibringt, dann lehrt die Nach-Trainingszeit der KI, wie man dieses Wissen anwendet.

An dieser Produktionskette, die die KI “klüger” macht, sind zwei Arten von Menschen von entscheidender Bedeutung: Einerseits die “Aufgabenlöser”, die direkt mit den Aufgaben konfrontiert sind und Daten gemäß den Regeln produzieren; andererseits die “Aufgabensteller”, die die Aufgaben gestalten, Felder zerlegen, Regeln schreiben und Standards festlegen.

Beide Arten von Menschen arbeiten zusammen an demselben Ziel: Sie strukturieren die menschliche Urteilsfähigkeit.

Zhou Yiheng ist bei ByteDance für die Datenstrategie verantwortlich und gehört zu den “Aufgabenstellern” in der Kette. Nach seiner Meinung sehen viele normale Benutzer, dass die KI immer besser im Chat und im Schreiben von Artikeln wird, aber was sich wirklich ändert, ist die interne Fähigkeitsstruktur des Modells.

“Das Basismodell kann eigentlich nur das nächste Wort vorhersagen”, sagte er. “Es hat viel Wissen gelernt, aber es weiß nicht, wie die Wissensbestände miteinander verbunden werden sollen.”

Mit anderen Worten, das Modell kennt viele Fakten, aber es weiß nicht, wann es diese Fakten anwenden soll. Genau dieses Problem soll die Nach-Trainingszeit lösen.

Beispielsweise, wenn ein Benutzer fragt: “Es ist jetzt halb eins und ich habe noch kein Mittagessen gegessen. Bitte empfehle mir ein näheres Sushi-Restaurant mit einem Durchschnittspreis von weniger als 40 Yuan pro Person.” Für einen Menschen ist dies eine einfache Anforderung.

Aber für das Modell muss es eine Reihe von komplexen Aktionen ausführen. Zuerst muss es verstehen, was der Benutzer wirklich sagen will; dann muss es das geografische Standorttool nutzen, um die Koordinaten zu erhalten; die Koordinaten in Handelszentrum-Informationen umwandeln; dann das lokale Lebensmitteltool nutzen, um die passenden Restaurants auszuwählen; und schließlich das Ergebnis in natürliche Sprache umwandeln und an den Benutzer zurückgeben.

Im gesamten Prozess muss das Modell nicht nur die Sprache verstehen, sondern auch lernen, zu planen, zu schließen und zu entscheiden. Diese Fähigkeiten können nicht direkt aus Internetseiten gelernt werden.

In den letzten zehn Jahren hat die KI-Branche immer an der Skalenerweiterung geglaubt, es brauchte mehr Parameter, reichhaltigere Daten und mehr Rechenleistung. Aber um 2024 herum trat ein immer deutlicher werdendes Problem auf: Die qualitativ hochwertigen Internetdaten nähern sich einem Limit.

Die hochwertigen Inhalte auf öffentlichen Webseiten, Foren, Enzyklopädien und Nachrichten sind nicht unendlich. Wenn fast alle Großmodell-Unternehmen ähnliche Daten für das Training verwenden, wird es immer schwieriger, durch die Skalenerweiterung Fähigkeitssprünge zu erzielen.

Die Branche beginnt, nach neuen Ressourcen zu suchen. Diesmal sind es nicht die Webseiten, sondern die “Urteilsfähigkeit” im menschlichen Gehirn, die schwer zu extrahieren ist. Wie diagnostiziert ein Arzt eine Krankheit? Wie konstruiert ein Anwalt ein Argument? Wie liest ein Forscher eine Studie? Wie erkennt ein Muttersprachler Sprachgefühl? Diese Wissensbestände, die ursprünglich nur in den Erfahrungen existierten, werden zur wichtigsten Trainingsmaterialien in der Nach-Trainingszeit.

Die KI muss nicht mehr das Wissen selbst lernen, sondern warum der Mensch so denkt. Früher war die Aufgabe der KI-Trainer, dem Modell die Antwort zu geben; jetzt müssen sie dem Modell erklären, warum dies die Antwort ist.

Diese Ver&a