StartseiteArtikel

Der Vorrat an Trainingsdaten für KI ist erschöpft. Warum hat der Wert dieses Datenbeschriftungsunternehmens so stark gestiegen? | Kejin · Hard Tech

耿宸斐2025-04-01 15:58
Die Aktienkurse von Innodata sind im Laufe eines Jahres um 432 % gestiegen.

Autor | Geng Chenfei

Redakteur | Song Wanxin

„Datenbeschriftung“ ist ein wichtiger Bestandteil der Industriekette, die mit dem Fortschritt der Künstlichen Intelligenz (KI) entstanden ist. Insbesondere nach der Entstehung von Großen Modellen hat sich der Datenbeschriftungssektor rasant erweitert. Doch mit der Weiterentwicklung der Großen Modelle wird dieser arbeitsintensive Sektor ständig neu bewertet.

Das US-amerikanische Unternehmen Innodata, ein führender Anbieter von Datenbeschriftungsdiensten, ist ein typisches Beispiel für diesen Prozess.

In den letzten zwölf Monaten hat der Aktienkurs von Innodata um beeindruckende 432 % gestiegen. Laut der neuesten Geschäftsberichtsdokumentation hat das Unternehmen im Jahr 2024 seinen Umsatz um 96,44 % im Vergleich zum Vorjahr erhöht. Fünf der acht großen Kunden von Innodata gehören zu den sieben größten Unternehmen an der US-Börse.

Trotz solider Geschäftsdaten konnte sich das Unternehmen nicht vor den Anpassungen der Markt-Erwartungen schützen. Nach der Veröffentlichung von DeepSeek begann der Markt an der Nachfrage nach öffentlichen Trainingsdaten zu zweifeln, was zu Schwankungen des Innodata-Aktienkurses führte. Im März fielen die Aktien um über 30 %.

Die Marktmeinungen über das Unternehmen sind stark geteilt.

Die Pessimisten argumentieren, dass Innodata in den letzten zehn Jahren nur zweimal Gewinn gemacht hat, weshalb der starke Anstieg des Aktienkurses nicht gerechtfertigt sei. Die Optimisten hingegen glauben, dass sich die Situation mit den Großen Modellen geändert hat und Innodata seinen Geschäftsmodell auf die Datenbereinigung für Große Modelle ausgerichtet hat.

01 Neubewertung des Unternehmenswertes

Der erste Höhepunkt des Datenbeschriftungssektors war die Entwicklung des autonomen Fahrens. Vor der Entstehung von Großen Modellen machte die Beschriftungsnachfrage im Bereich des autonomen Fahrens 2022 laut einem Bericht von Deloitte 38 % der gesamten Nachfrage im unteren Segment der KI-Anwendungen aus.

Die Großen Modelle haben die Nachfrage nach Datenbeschriftung auf ein neues Niveau gehoben.

„Ohne die Entstehung von Großen Modellen hätte Scale AI, das führende Unternehmen im Bereich der Datenbeschriftung für das autonome Fahren, bis 2023 höchstens 100 bis 200 Millionen US-Dollar pro Jahr an Umsatz gemacht. Im Jahr 2024 wird das jährliche wiederkehrende Einnahmen (ARR) von Scale AI auf 1,2 bis 1,4 Milliarden US-Dollar geschätzt, was einem Siebenfachen des Umsatzes von 2022 entspricht.“ so ein Investor.

Die Skalengesetze (Scaling Law) der Großen Modelle besagen, dass die Leistung eines Modells von der Anzahl der Parameter, der Menge der Trainingsdaten und der Rechenkapazität abhängt. Nehmen wir GPT-4 als Beispiel: Die Anzahl seiner Parameter stieg von etwa 175 Milliarden bei GPT-3 auf etwa 1,8 Billionen, und die Größe des Trainingsdatensatzes wuchs von einigen hundert Milliarden Tokens bei GPT-3 auf 13 Billionen Tokens.

Innodata, das sich auf den Bereich der Daten-Engineering spezialisiert hat, hat von der Boomphase der Großen Modelle stark profitiert.

Laut der neuesten Geschäftsberichtsdokumentation hat der größte Kunde von Innodata dem Unternehmen einen zusätzlichen Auftrag im Wert von etwa 24 Millionen US-Dollar erteilt, wodurch das gesamte jährliche Betriebseinkommen von diesem Kunden auf etwa 135 Millionen US-Dollar anstieg.

Abgesehen von diesem größten Kunden hat das Einkommen von den anderen sieben großen Technologieunternehmen, die Innodata beauftragen, im vierten Quartal um 159 % im Vergleich zum Vorquartal zugenommen.

Die jüngsten Geschäftsresultate zeigen, dass das Einkommen von Innodata deutlich beschleunigt wächst. Im Jahr 2024 betrug die Jahreszuwachsrate des Umsatzes in den ersten bis vierten Quartalen 40,7 %, 65,6 %, 135,6 % bzw. 126,6 %. Innodata erwartet, dass das Unternehmenswachstum im Jahr 2025 über 40 % liegen wird.

Nach der Expansion des Großen Modells-Sektors treten nun die Probleme des Datenbeschriftungssektors zutage: Die knapp werdenden Daten können die Weiterentwicklung der Modelle und die Trainingsanforderungen für die Implementierung der Großen Modelle nicht mehr ausreichend decken.

Eine Studie von Epoch AI zeigt, dass sich die Menge der Trainingsdaten für Große Sprachmodelle seit 2020 um das 100-fache erhöht hat und die Größe der KI-Trainingsdatensätze jedes Jahr verdoppelt wird. Die Verfügbarkeit von Inhalten im Internet wächst jedoch jährlich um weniger als 10 %. Bis 2028 werden die Trainingsdaten für die KI wahrscheinlich aufgebraucht sein.

Tatsächlich ist der Engpass aufgrund des Mangels an Daten bereits ein weit verbreitetes Problem in der Branche. Im November letzten Jahres berichtete The Information, dass die Verbesserungen des nächsten Flaggschiffmodells Orion von OpenAI stark verlangsamt wurden, hauptsächlich wegen des Mangels an hochwertigen Trainingsdaten.

Es ist in der Branche allgemein anerkannt, dass die Verfügbarkeit von allgemeinen Daten nahezu gesättigt ist und dass branchenspezifische Daten der Schlüssel für die Differenzierung zukünftiger KI-Modelle sein werden.

02 Wird DeepSeek die Datenbeschriftung ablösen?

Als eines der wenigen Unternehmen, das sich am US-Börsenmarkt mit der KI-Datenbeschriftung befasst, wird die „KI-Komponente“ von Innodata bis heute heftig in Zweifel gezogen.

Schon 2019 hat Innodata angekündigt, dass es mit der Implementierung von KI- und maschinellen Lernprozessen begonnen hat und sich als KI-Unternehmen einstuft. Im Februar letzten Jahres jedoch hat ein Bericht von Wolfpack Research behauptet, dass Innodata die KI nur als Werbeplattform für seinen Aktienkurs nutzt und dass sein Kerngeschäft immer noch auf der Basisdatenerfassung durch billige ausländische Arbeitskräfte beruht, anstatt auf eigenentwickelter KI-Technologie.

Der Bericht zitiert einen ehemaligen Mitarbeiter, der sagt, dass der Service, den das Unternehmen für Silicon Valley-Kunden bietet, im Wesentlichen „Tastaturarbeit“ ist.

„Das Geschäftsmodell von Innodata basiert auf der Outsourcing von Datenbeschriftung an Arbeitskräfte. Sie verdienen ihr Geld hart erarbeitet. Der Unterschied zu den Wettbewerbern besteht nur darin, dass sie am längsten in der Branche tätig sind und am größten sind.“ so ein Investor. „Technologie kann die Datenbeschriftung beschleunigen, aber um die Qualität der Datenbeschriftung zu verbessern, braucht man derzeit noch Menschen.“

Laut einem Bericht von Zhiyan Consulting beträgt das Verhältnis zwischen maschineller und manueller Beschriftung trotz der Entwicklung von halbautomatischen Werkzeugen in einigen Datenbeschriftungsunternehmen immer noch etwa 3:7.

Die Geschäftsberichte von Innodata bestätigen diese Realität indirekt. Nur im zweiten Quartal 2024 hat Innodata 3,6 Millionen US-Dollar an Personalvermittlungsgebühren ausgegeben, was darauf hinweist, dass das Unternehmen immer noch stark auf Arbeitskräfte angewiesen ist.

Ein Insider hat 36 Kr told, dass dies hauptsächlich auf die Komplexität und Vielfalt der Datenbeschriftung sowie auf die unterschiedlichen Anforderungen in verschiedenen Branchen zurückzuführen ist. Darüber hinaus weisen die automatisierten Beschriftungstechnologien derzeit noch einige Einschränkungen auf, wie z. B. eine geringe Erkennungsgenauigkeit für bestimmte Datentypen und eine begrenzte Fähigkeit zur Verarbeitung komplexer Szenarien.

Aber DeepSeek hat in gewisser Weise die Logik der Datennachfrage verändert.

Technisch gesehen nutzt DeepSeek die Technologie des verstärkten Lernens (RL), die es den Großen Modellen ermöglicht, sich selbst mit den bereits im Modell vorhandenen Daten zu trainieren, ohne ständig neue Daten von außen zu benötigen.

Einerseits verringert dies die Nachfrage der Anbieter von Großen Modellen nach Datenmengen. Andererseits glaubt An Guangyong, ein Experte der Credit Management Committee der All-China M&A Association, dass Unternehmen aus Kostensenkungszielen möglicherweise eher zu kostengünstigen synthetischen Daten tendieren. Dies wird auch in gewissem Maße Unternehmen wie Innodata, die sich auf Datenbeschriftung spezialisiert haben, schaden.

Im Zusammenhang mit den Zweifeln an der Beeinträchtigung durch DeepSeek hat das Management von Innodata in der Einnahmekonferenz erklärt, dass sie glauben, dass die Vorabtrainingsdaten und die Feinabstimmungsdaten für die Entwicklung der Künstlichen Allgemeinintelligenz (AGI) unverzichtbar sind.

Nach ihrer Ansicht würde die Abhängigkeit von DeepSeek von der Verwendung bestehender Modell-Daten für das Training neuer Modelle die Datenmenge stark reduzieren und schließlich zum Kollaps der Modelle führen.

Die Unsicherheit über das nachhaltige Wachstum von Innodata beruht nach den Marktmeinungen auf zwei Faktoren: Einerseits auf der Frage, ob die Nachfrage nach Datenbeschriftung weiter wachsen wird, und andererseits auf der Frage, ob die Beschriftungsarbeit weiterhin wenig automatisiert bleibt.

Was die erste Frage angeht, hat Zhou Di, ein nationaler Technologieexperte des Ministeriums für Wissenschaft und Technologie, 36 Kr told, dass synthetische Daten eher für die Erzeugung neuer Trainingsdaten geeignet sind, während die manuelle Datenbeschriftung besser zur tiefen Analyse und Interpretation bestehender Daten geeignet ist.

Obwohl synthetische Daten konsistenter und besser kontrollierbar sind, sind manuell beschriftete Daten in Bereichen wie der Sentimentanalyse und dem Textgenerieren, die eine tiefe semantische Verständnis erfordern, immer noch unverzichtbar.

Ein anderer Investor hat analysiert, dass mit der deutlichen Reduzierung der Kosten für die Implementierung und den Betrieb von Modellen durch DeepSeek immer mehr Anwendungsunternehmen ihre eigenen Großen Modelle einführen werden, was auch zusätzliche Nachfrage nach Datenbeschriftung generieren wird. Das Auftauchen von DeepSeek wird also für Innodata zumindest keine negative Entwicklung sein.

Was die zweite Frage angeht, handelt es sich um ein Paradoxon ähnlich der Frage, was zuerst war, das Huhn oder das Ei. Wenn die Marktinvestoren die „KI-Komponente“ von Innodata in Zweifel ziehen, besteht die Wahrscheinlichkeit, dass die Automatisierung der Datenbeschriftung zuerst die Datenbeschriftungsunternehmen selbst in die Enge treibt.

Abonnieren Sie uns für mehr Neuigkeiten