StartseiteArtikel

SmartVoice Technologies will an die Börse gehen, aber die Marktschutzbarriere der KI-Sprachtechnologie ist verschwunden.

硅基观察Pro2026-05-29 20:15
Sprachtechnologie verliert zunehmend ihren eigenständigen Wert.

Am 25. Mai hat SmartVoice Technologies eine IPO-Anmeldung für die Science and Technology Innovation Board eingereicht.

Als eines der ersten chinesischen KI-Unternehmen hat SmartVoice Technologies fast zwanzig Jahre hinter sich. Doch was die Geschäftsergebnisse betrifft, wächst dieses etablierte KI-Unternehmen nicht besonders schnell. Von 2023 bis 2025 beliefen sich die Umsätze des Unternehmens auf 539 Millionen Yuan, 601 Millionen Yuan und 688 Millionen Yuan. Die zweijährige Kompoundwachstumsrate betrug nur 12,98 %.

In gewisser Hinsicht befindet sich SmartVoice Technologies an einem etwas unangenehmen Punkt.

In den letzten zehn Jahren war die Sprachtechnologie immer der typischste Technologiebarriere-Sektor im Bereich Künstliche Intelligenz. Unternehmen wie Cerence, SoundHound und SmartVoice Technologies profitierten von diesem industriellen Boom.

Aber seit der Entstehung der Large Language Models wird die zugrunde liegende Logik der Branche umgeschrieben. Konzerne wie OpenAI, Google, Alibaba und ByteDance machen die Sprachfähigkeit zu einer Grundfähigkeit.

So stellt sich für alle traditionellen Sprachunternehmen die Frage: Was bleibt von ihrem Wert, wenn Sprache zum Standardmerkmal von Large Language Models wird?

Heute wollen wir über SmartVoice Technologies und die Zukunft traditioneller Sprach-KI-Unternehmen sprechen.

Hohe Gewinnmarge, aber dennoch schwierig zu profitieren

Betrachtet man die Einnahmenstruktur, hat SmartVoice Technologies hauptsächlich drei Geschäftsbereiche: das Automobilgeschäft, die intelligente Büroarbeit und das intelligente Internet der Dinge.

Das Automobilgeschäft bildet die Grundlage des Unternehmens. Im Jahr 2025 beliefen sich die Einnahmen aus diesem Bereich auf 276 Millionen Yuan, was 40,08 % des Gesamtumsatzes ausmacht.

Das Automobilgeschäft besteht im Wesentlichen darin, Automobilherstellern Lösungen für die Sprachinteraktion anzubieten. Derzeit ist SmartVoice Technologies in die Lieferketten mehrerer Automobilhersteller wie BYD, Mercedes-Benz und Volkswagen eingegangen. Die Marktbeteiligung bei der Installation von Sprachsystemen in Autos beträgt 22 %.

Der zweite Geschäftsbereich ist die intelligente Büroarbeit, einschließlich Software-Services wie Spracherkennung, Meetingprotokolle und freie Gespräche sowie Hardwareprodukte wie intelligente Deckenmikrofone und KI-Bürocomputer. Von 2023 bis 2025 stieg die Einnahme aus diesem Bereich von 180 Millionen Yuan auf 243 Millionen Yuan. Es ist einer der am schnellsten wachsenden Bereiche in den letzten Jahren.

Im Vergleich dazu hat sich das Geschäft mit dem intelligenten Internet der Dinge zurückgezogen. Von 2023 bis 2025 sank die Einnahme aus diesem Bereich von 197 Millionen Yuan auf 169 Millionen Yuan, und der Anteil am Gesamtumsatz fiel von 36,63 % auf 24,51 %.

Betrachtet man die Rentabilität, ist die Gewinnmarge von SmartVoice Technologies nicht niedrig.

Mit dem Anstieg des Anteils der Softwareeinnahmen stieg die Gewinnmarge des Unternehmens von 53,69 % im Jahr 2023 auf 63,24 % im Jahr 2025.

Aber die hohe Gewinnmarge hat sich nicht in Gewinne umgesetzt.

In den letzten drei Jahren hat das Unternehmen Verluste von 136 Millionen Yuan, 158 Millionen Yuan und 80 Millionen Yuan gemacht. In derselben Zeit betrug die Kostenquote 76,3 %, 79,5 % bzw. 68,7 %.

Das liegt hinter den Kulissen an der langjährigen kommerziellen Schwierigkeit der chinesischen Software-Service-Branche.

Der Großteil der Geschäfte von SmartVoice Technologies hat immer noch stark projektbezogene Eigenschaften. Ob es um Sprachsysteme in Autos, intelligente Büroarbeit oder Lösungen für das Internet der Dinge geht, bei jedem neuen Kunden fallen in der Regel zusätzliche Kosten für Forschung und Entwicklung, Anpassung, Tests, Installation und Wartung an.

Insbesondere im Automobilbereich gibt es deutliche Unterschiede zwischen verschiedenen Automobilherstellern, Modellen und sogar Betriebssystemen. Es ist schwierig, wie bei standardisierten Softwareprodukten eine Massenreproduktion zu erreichen.

Doch das ist nicht das größte Problem von SmartVoice Technologies. Das eigentliche Problem ist: Wo liegt der Wert eines Sprachlieferanten, wenn die multimodalen Fähigkeiten von Generalmodellen stark genug sind?

Large Language Models verschlingen die KI-Sprachunternehmen

Seit letztem Jahr sind die Aktien von Softwareunternehmen an der amerikanischen Börse stark gefallen.

Einer der am stärksten betroffenen Sektoren sind die traditionellen Sprachdienstleister.

Seit 2025 ist der Wert von SoundHound AI von einem Jahreshoch von 22,17 US-Dollar auf etwa 8,56 US-Dollar gefallen, was einem Rückgang von 61,39 % entspricht. Cerence ist von einem Hoch von 27,5 US-Dollar auf 11,87 US-Dollar gefallen, was einem Rückgang von etwa 56,84 % entspricht. Agora ist von einem Hoch von 6,99 US-Dollar auf 4,25 US-Dollar gefallen, was einem Rückgang von fast 39,20 % entspricht.

Hinter dem Rückgang der Aktienkurse bildet sich ein immer deutlicherer Konsens: Die Sprachtechnologie an sich verliert ihren unabhängigen Wert.

In den letzten zwanzig Jahren basierte die Sprachbranche auf einer relativ klaren Wertschöpfungskette.

Die Standardkette der traditionellen KI-Sprachtechnologie ist eine typische modulare Fertigungslinie: ASR (Spracherkennung), NLU (Absichtserkennung), Dialog Manager (Dialogverwaltung), TTS (Sprachsynthese) und verschiedene Szenarios.

Viele KI-Sprachunternehmen hatten in der Vergangenheit Wert, weil jede Stufe schwierig war. Beispielsweise erfordern die Erkennung von Akzenten, die Störunterdrückung, die geringe Latenz, die Aktivierungswörter, das Innenraumklima in Autos, die Komprimierung der Tonqualität in Telefonleitungen, die Unterbrechung durch mehrere Personen und die Natürlichkeit der Sprachsynthese langjährige technische Erfahrungen.

SmartVoice Technologies, iFlytek, SoundHound und Cerence profitierten von dieser Zeit.

Aber seit der Entstehung der Large Language Models hat sich diese Logik verändert. Einerseits hat die Verbesserung der KI-Fähigkeiten der Modelle zu stärkeren multimodalen Fähigkeiten geführt. Andererseits hat das Large Language Model diese ursprünglich verteilten Module zu einem einheitlichen System zusammengeführt.

Derzeit nähert sich die Sprachfähigkeit der Large Language Models schnell an die der traditionellen Sprachunternehmen heran und übertrifft sie sogar.

In der Vergangenheit war der wichtigste Indikator in der Sprachbranche die WER (Word Error Rate), d. h. wie viele Wörter bei der Erkennung von 100 Wörtern fehlerhaft erkannt werden. Je niedriger die WER, desto höher ist die Erkennungsgenauigkeit.

Das traditionelle Sprachsystem kann in idealen Umgebungen in der Regel die WER auf weniger als 5 % begrenzen. Aber in komplexen Szenarios wie Lärm in Autos, Telefonleitungen und Mehrpersonengesprächen steigt die Fehlerrate in der Regel deutlich an.

Beispielsweise betrug die WER des SmartVoice Technologies-Systems in relativ sauberen Szenarios wie Nachrichtensendungen im Jahr 2025 etwa 4,8 %, stieg aber in Lärmumgebungen in Autos auf 12,3 %.

Im Vergleich dazu hat das von OpenAI veröffentlichte Whisper Large-v3 nicht nur auf Standardtestdatensätzen eine niedrigere Fehlerrate erreicht, sondern auch in realen Szenarios wie Meetings, Telefonaten und Mehrpersonendiskussionen eine starke Stabilität gezeigt.

Der Grund dafür ist nicht kompliziert.

Traditionelle Sprachunternehmen sind seit langem auf hochwertige annotierte Daten angewiesen. Obwohl diese Daten präzise sind, ist der Erwerbskosten hoch und die Datenmenge begrenzt. Viele Unternehmen haben in den letzten zehn Jahren nur einige tausend bis einige zehntausend Stunden an Branchenkorpora gesammelt.

Das Large Language Model kann dagegen öffentliche Videos, Podcasts, Telefonaufnahmen, Meetingprotokolle, Untertitel und Benutzerfeedback für das Training nutzen. Beispielsweise beträgt die Trainingsdatenmenge von Whisper etwa 680.000 Stunden, was weit mehr ist als bei traditionellen Sprachsystemen.

Die größere Datenmenge ermöglicht es dem Modell, nicht nur mehr komplexe reale Szenarios zu kennen, sondern auch eine stärkere Fähigkeit zum Verständnis des Kontexts zu entwickeln.

Das traditionelle Sprachsystem ist eher darauf ausgelegt, Schlüsselwörter zu erkennen, während das Large Language Model in der Lage ist, die eigentliche Absicht des Benutzers anhand des Kontexts zu verstehen. Selbst wenn es Pausen, Sprachfehler oder unvollständige Ausdrücke gibt, kann es den Text korrigieren und ergänzen.

Mit anderen Worten, das traditionelle Sprachmodell ist im Labor entstanden, während das Large Language Model in der realen Welt aufgewachsen ist.

Diese Veränderung wird schnell auf die Branche übertragen und wirft eine Frage auf:

Wenn OpenAI, Google, Amazon, ByteDance und Alibaba alle eine Sprachinteraktionsfähigkeit mit geringer Latenz und hoher Genauigkeit bieten können, werden die Kunden sich natürlich fragen: Warum sollten sie noch einen separaten Sprachlieferanten beauftragen?

In gewisser Hinsicht wird die Sprachfähigkeit immer mehr zu einer Infrastruktur und weniger zu einem unabhängigen Produkt.

Dieser Trend hat bereits begonnen.

Im Jahr 2023 hat OpenAI eine Partnerschaft mit Mercedes-Benz geschlossen und ChatGPT in sein MBUX-System für die Sprachsteuerung in Autos integriert. Google hat auch begonnen, das ursprüngliche Google Assistant durch Gemini zu ersetzen und es allmählich in Android-Smartphones, Google TV und Smartwatches zu integrieren.

In China ist es ähnlich. Doubao ist in das On-Board-System von Tesla in China integriert worden, und Tongyi Qianwen hat allmählich die Sprachfähigkeit hinter dem Tmall Genie übernommen und sich auf Endgeräte für das intelligente Heim erweitert.

Diese Veränderungen wirfen für SmartVoice Technologies ein noch gravierteres Problem auf:

Was bleibt von dem Wert traditioneller KI-Sprachunternehmen, wenn Sprache allmählich von einem unabhängigen Produkt zu einer Grundfähigkeit wird?

Dieser Artikel stammt aus dem WeChat-Account „Silicon Observation Pro“. Autor: Yuanyuan. Veröffentlicht von 36Kr mit Genehmigung.