Immer mehr Angestellte murren an ihrem Computer herum.
In letzter Zeit ist auf Taobao ein Tastaturprodukt populär geworden. Es verfügt nur über 4 Tasten, einen Schalthebel und einen Mikrofonanschluss, keine Buchstabentasten und kann nicht zum Tippen verwendet werden. Der Preis beginnt bei 269 Yuan, und die Version mit einem DJI - Mikrofon kostet über 400 Yuan. Dieses Produkt heißt AhaKey - X1 und wurde von Nanjing Jinxinwan Technology Co., Ltd. (im Folgenden AhaKey) entwickelt. Es wurde erst um die Zeit des chinesischen Neujahrs diesen Jahres online gestellt.
Sein Zweck ist sehr einfach: Es erleichtert den Benutzern das Sprechen mit KI.
Die Benutzer müssen nur die Sprach Taste drücken und Arbeitsanweisungen in das Mikrofon sprechen. Die KI wandelt die Sprache in Text um und sendet ihn an KI - Tools wie Claude, ChatGPT, DeepSeek und Cursor zur Ausführung. Egal, ob es darum geht, Code zu schreiben, ein Projekt zu verbessern oder Meetingprotokolle zu erstellen, die Benutzer müssen nicht tippen, sondern können einfach sprechen. Die KI ordnet die umgangssprachlichen Äußerungen automatisch in strukturierte Texte.
Zhang Xinyang, Mitbegründer und CTO von AhaKey, sagte einem Reporter der Economic Observer, dass die monatlichen Verkäufe seit der Markteinführung des Produkts verdoppelt haben. Während des "6·18" - Sales waren die Bestände der Firma fast auf 1.000 Geräte gestiegen. Derzeit führt die Firma Gespräche über Finanzierungen mit mehreren Industriekapitalanlegern und Investmentinstituten.
Die Tatsache, dass eine Tastatur ohne Buchstabentasten gut verkauft wird, liegt daran, dass immer mehr Menschen Sprache anstelle von Tippen verwenden, um Arbeitsanweisungen an KI zu geben. Diese Art der Arbeit war zunächst bei Programmierern beliebt. Sie beschreiben ihre Anforderungen an die KI per Sprache, und die KI erstellt den Code. Aber jetzt beginnen auch Produktmanager, Anwälte und Inhaltsersteller, so zu arbeiten.
Zhang Xinyang sagte einem Reporter der Economic Observer, dass ihm ein Benutzer besonders in Erinnerung geblieben sei, ein Anwalt in den vierzigern, "der sich nicht einmal besonders gut mit Windows - Computern auskennt". Aber nachdem er sich ein AhaKey gekauft hatte, konnte er seine Arbeit ohne Tippen durch Gespräche mit der KI erledigen. Zhang Xinyang sagte, dass dies ihm und seinem Team gezeigt habe, dass der Bedarf an sprachgestützter Arbeit in der KI - Ära möglicherweise viel größer sei, als sie gedacht hätten.
Tatsächlich ist die Spracheingabe keine ganz neue Erfindung. Bereits 1997 hat IBM das kommerzielle chinesische Spracherkennungssystem ViaVoice eingeführt, das eine angegebene maximale Erkennungsrate von 95 % hat und auf den damaligen Mainstream - PCs vorinstalliert war. In den letzten fast dreißig Jahren haben Firmen wie iFlytek, Sogou und Baidu kontinuierlich in den Bereich der Spracheingabe investiert. Die Produkte haben sich von den PCs auf die Mobiltelefone ausgeweitet, aber die Spracheingabe ist nie zur Haupt - Eingabe - und Interaktionsmethode geworden.
Zhang Xinyang ist der Meinung, dass sich die Dinge nach der Reife der großen KI - Modelle geändert haben. "In der Vergangenheit hat die Spracheingabe das Problem der Umwandlung von Sprache in Text gelöst, aber nicht das Problem des Sprachverständnisses." Er sagte, dass die früheren Sprachezugabemethoden die gesprochenen Worte buchstäblich aufzeichneten. Bei einem falschen Wort musste man es manuell korrigieren. Der ausgegebene Text war umgangssprachlich und schwer zu lesen. Aber die großen KI - Modelle haben das Empfangsende verändert. Selbst wenn man unterbrochen spricht und Fehlaussprachen macht, kann die KI immer noch die Bedeutung verstehen und einen durchdachten Text ausgeben.
Oder anders ausgedrückt: Wenn der Empfänger der Spracheingabe von Menschen auf KI wechselt, sinkt die Anforderung an die Erkennungsgenauigkeit erheblich, und die sprachgestützte Arbeit kann erst wirklich umgesetzt werden.
Nach unvollständigen Statistiken eines Reporters der Economic Observer belief sich bis Ende des ersten Quartals 2026 das Gesamtfinanzierungsvolumen von Start - Ups im Bereich der Sprach - KI weltweit auf über 7 Milliarden US - Dollar.
Derzeit sucht die ausländische Sprachschreibanwendung Wispr nach einer neuen Runde der Finanzierung. Der Zielwert wird nahezu 2 Milliarden US - Dollar betragen, während dieser Wert vor sechs Monaten noch 700 Millionen US - Dollar war. Am 12. Mai 2026 hat Google die KI - Schreibfunktion Rambler in die Standardtastatur Gboard integriert, die auf Hunderten von Millionen von Android - Mobiltelefonen kostenlos nutzbar ist. In China hat Alibaba Qwen am 7. Mai 2026 die KI - Spracheingabefunktion auf dem PC eingeführt. Am 28. Mai 2026 hat iFlytek (002230.SZ) eine KI - Brille vorgestellt. Der darauf installierte Intellekt kann umgangssprachliche Äußerungen automatisch in strukturierte Texte ordnen.
In den letzten zwanzig Jahren war die Spracheingabe immer eine nicht besonders gute Zusatzfunktion der Eingabemethoden. Jetzt verwandeln die großen KI - Modelle sie in eine moderne Art der Arbeit.
"Die KI spürt keine Schmerzen"
Obwohl die Erkennungsgenauigkeit der verschiedenen Sprachezugabewerkzeuge heute schon sehr hoch ist und Funktionen wie simultane Dolmetschung und Mehrsprachenübersetzung nacheinander eingeführt sind, ist die Sprachezugabe immer noch keine Haupt - Interaktionsmethode geworden. Die meisten Menschen wählen immer noch das Tippen beim Online - Austausch, bei der Arbeit oder in der täglichen Interaktion. Das Problem liegt offensichtlich nicht in der Erkennungsgenauigkeit.
Lin Huijie, Leiter der Wearable - Geräteabteilung von iFlytek, sagte in einem Interview mit einem Reporter der Economic Observer, dass das traditionelle Sprachezugabe ein offensichtliches Problem habe: "Nach der Umwandlung von Sprache in Text kannst du den Text nicht direkt senden, weil jeder sieht, dass es eine sprachbasierte Tipparbeit ist. Es sieht nicht gut aus. Obwohl es dir selbst bequem ist, macht es anderen Leuten Schmerzen."
Die chinesische Sprechgeschwindigkeit ist normalerweise etwa dreimal so hoch wie die Tippgeschwindigkeit. Der Geschwindigkeitsvorteil ist eindeutig, aber die "Schnelligkeit" löst nur das Problem der Effizienz auf der Senderseite. Ein umgangssprachlicher Text mit Füllwörtern, Wiederholungen und sprunghaftem Logikfluss ist für den Leser eine Belastung. Beispielsweise macht es einem Kopfweh, 60 - Sekunden - Sprachnachrichten auf WeChat zu erhalten. Der Grund liegt auch hier: Der Sprecher hat es gut, aber der Hörer leidet.
Dies ist ein gemeinsames Problem, das die traditionellen Sprachezugabemethoden haben: Selbst wenn die Erkennungsgenauigkeit 99 % erreicht, ist der ausgegebene Text immer noch umgangssprachlich, ohne Satzzeichen, ohne Absätze und oft mit "äh", "ah" oder halben Unsinnigkeiten vermischt. Menschen haben Schwierigkeiten, ihn zu lesen.
Aber die KI spürt diese Schmerzen nicht. Für Menschen unerträgliche umgangssprachliche Texte bereiten der KI keine Verständnisprobleme. Egal, wie ungeordnet und zersplittert man spricht, kann die KI die Absicht daraus extrahieren. Das Problem, dass die Sprachezugabe "sich selbst bequem macht, aber anderen Leuten Schmerzen bereitet", verschwindet, sobald der Empfänger von Menschen auf KI wechselt.
Deshalb verbreitet sich die sprachgestützte Arbeit schnell in zwei Szenarien. Im ersten Szenario spricht der Benutzer an Claude, DeepSeek oder ChatGPT und gibt Anweisungen. Die KI versteht die Absicht direkt und führt die Aufgabe aus. Der gesamte Prozess erfordert nicht, dass ein durchdachter Text für Menschen erstellt wird. Dies ist eine Situation, die die Sprachezugabe in den letzten Jahrzehnten nie erlebt hat: Wenn der Empfänger von Menschen auf KI wechselt, sinkt die Anforderung an die Sprachnormativität erheblich.
Mit den Worten von Zhang Xinyang: "Das Verstehen der Absicht ist wichtiger als die buchstäbliche Genauigkeit."
Programmierer waren die erste Gruppe, die in großem Maßstab diesen Modus betrat. Andrej Karpathy, Mitbegründer von OpenAI, hat im Februar 2025 das Konzept von "vibe coding" (Stimmungsprogrammierung) öffentlich vorgestellt. Entwickler beschreiben ihre Anforderungen in natürlicher Sprache, und die KI erstellt den Code. Die Entwickler überprüfen und modifizieren ihn. Karpathy hat damals erwähnt, dass er das Sprachschreibwerkzeug SuperWhisper verwendet, um Programmieranweisungen an die KI zu sprechen. Bis Dezember 2025 hat Karpathy das Tippen von Code vollständig aufgegeben und sich 100 % auf die Sprachezugabe verlassen.
Von Ende Februar bis Anfang März 2026 haben die Programmierintelligenzen Codex von OpenAI und Claude Code von Anthropic in einem Zeitraum von weniger als einer Woche nacheinander den nativen Sprachmodus eingeführt. Entwickler können die Leertaste drücken und sprechen, und die KI kann die Programmieranweisungen empfangen.
Das AhaKey - X1 ist für diesen Arbeitsablauf entwickelt worden. Zhang Xinyang sagte, dass die KI bei der Verwendung von KI - Programmierwerkzeugen wie Claude Code häufig den Benutzer auffordert, Aktionen zu genehmigen. Wenn man den Schalthebel nach oben schiebt, werden die Aktionen automatisch genehmigt. Wenn man ihn nach unten schiebt, muss man sie einzeln bestätigen. "Es ist wie bei einem Automatikgetriebe. Alle erforderlichen Genehmigungen werden automatisch erteilt." Drei der vier Tasten entsprechen Sprechen, Bestätigen und Ablehnen, die vierte Taste kann vom Benutzer selbst definiert werden.
Nach Zhang Xinyangs Angaben haben sie im Team festgestellt, dass das Tippen am Computer manchmal die Ideen einschränkt, wenn man sich aufrecht setzt. "Viele Ideen kommen plötzlich auf, vielleicht wenn man auf der Couch im Büro liegt." Wenn das Gespräch mit der KI schon auf Sprache umgestellt ist, warum muss man unbedingt am Computer sitzen?
Deshalb haben sie zunächst ein Open - Source - Projekt auf der Open - Source - Community GitHub veröffentlicht. Einige Leute haben danach Komponenten und Bausätze gekauft, und später haben einige Leute gewünscht, fertige Geräte zu erhalten. "Die Benutzer haben uns vorangetrieben." sagte Zhang Xinyang. Auf Xiaohongshu haben bereits viele Benutzer selbst einen Drei - Tasten - Miniaturtastatur für 69 Yuan und ein Mikrofon gekauft und ähnliche Geräte zusammengebaut.
Im zweiten Szenario, in dem sich die sprachgestützte Arbeit schnell verbreitet, fügt die KI auch nach der Umwandlung von Sprache in Text eine Semantikverarbeitung hinzu, selbst wenn am Ende noch ein Text für Menschen erstellt werden muss: Sie löscht automatisch Füllwörter, korrigiert die Grammatik, ordnet die Logik und die Satzstruktur und gibt einen direkt verwendbaren, durchdachten Text aus. Die Verzögerung in diesem Prozess beträgt normalerweise nur ein oder zwei Sekunden.
"Selbst wenn du in der vorherigen Rede etwas falsch sagst und es später korrigierst, kann die KI es für dich vollständig ordnen und einen effektiven Text erstellen." sagte Lin Huijie dem Reporter. Dies bedeutet auch, dass die frühere Sprachezugabe nur mit einer sehr hohen Erkennungsgenauigkeit schwer nutzbar war. Jetzt kann die aktuelle Sprachezugabe, auch wenn die Genauigkeit durchschnittlich ist, dank der Verständnisfähigkeit der großen Modelle bessere Ergebnisse liefern als die buchstäbliche Umwandlung.
Tatsächlich haben sich in den letzten zwei Jahren eine Reihe von Start - Ups im Bereich der KI - Sprachschreibung schnell entwickelt. Das am höchsten bewertete Unternehmen ist die in San Francisco gegründete Wispr. Diese Firma wurde 2021 gegründet und hat zunächst Armbänder für Hirn - Computer - Schnittstellen (zur stummen Sprachezugabe) hergestellt. Mitte 2024 hat sie sich auf die Entwicklung von Sprachschreibsoftware umorientiert.
Offizielle Informationen zeigen, dass Wispr bis Anfang 2026 insgesamt etwa 81 Millionen US - Dollar an Finanzierungen erhalten hat. Laut den von Wispr veröffentlichten Daten haben Benutzer, die das Produkt länger als sechs Monate kontinuierlich nutzen, 72 % ihrer täglichen Eingaben per Sprache statt per Tastatur gemacht. Seit der Markteinführung des Produkts hat sich die Benutzerzahl um mehr als das 100 - fache erhöht, und 70 % der Benutzer, die es schon zwölf Monate lang nutzen, sind immer noch aktiv.
Im September 2025 hat Reid Hoffman, Mitbegründer von LinkedIn, in den sozialen Medien erklärt, dass er "voicepilled" (sprachlich erwacht) sei und dass dies "eine ganz neue Art der Fähigkeitsverstärkung" sei.
Bis Mai 2026 nähert sich der Zielwert von Wispr fast 2 Milliarden US - Dollar an, was in sechs Monaten fast verdreifacht wurde. Ein Bewertung von 2 Milliarden US - Dollar für eine Schreibanwendung zeigt, dass der Kapitalmarkt offensichtlich auf Szenarien setzt, in denen Sprache einen Teil der Tastatureingabe ersetzt.
Die iFlytek - Eingabemethode folgt auch diesem Trend. Ende 2025 hat die iFlytek - Eingabemethode auf der Tastaturoberfläche eine KI - Taste hinzugefügt. Benutzer können diese Taste lang drücken, um direkt per Sprache Anweisungen an die KI zu geben, ohne in andere Anwendungen wechseln zu müssen. Laut dem Jahresbericht von iFlytek 2025 hat sich die Penetrationsrate der KI - Modelldienste der iFlytek - Eingabemethode um 900 % erhöht, und die Eingabeeffizienz um 77 %.
Dies könnte darauf hinweisen, dass der Bedarf an sprachgestützter Arbeit von der Geeks - Szene auf eine breitere Gruppe von Berufstätigen übergeht.
"Flüstere leise!"
Der Geschwindigkeitsvorteil der sprachgestützten Arbeit ist eindeutig, aber die Arbeit ist nicht nur auf Geschwindigkeit ausgerichtet. Beim Schreiben eines sorgfältig formulierten E - mails, beim Ändern eines logisch komplexen Codes oder beim Polieren eines Projekts für einen Kunden sind Präzision und Kontrolle erforderlich, nicht die schnelle Äußerung. Ob diese Szenarien abgedeckt werden können, ist eines der Schlüsselprobleme, wie weit die sprachgestützte Arbeit gehen kann.
Ein Reporter der Economic Observer fragte Zhang Xinyang in einem Interview: Manche denken, dass die Eingabe von Anweisungen per Tastatur logischer ist und dass der Tippprozess selbst hilft, die Gedanken zu ordnen. Kann die Sprachezugabe diesen Prozess ersetzen? Zhang Xinyang antwortete: "Der Wert des Tippens besteht immer."
Er unterscheidet die beiden klar: Die Sprache ist auf der Seite der Äußerung, die Tastatur auf der Seite der Ordnung. "Wenn du etwas ändern möchtest, ist der Denkprozess selbst für dich von Wert." Die Sprache löst das Problem, die Ideen schnell "herauszuschütten", aber die Bearbeitung und das tiefe Denken erfordern immer noch die Tastatur.
Zhang Xinyang erwähnte auch eine Veränderung: Vor zwei Jahren war der Job als "Prompt - Engineer" ein beliebtes Stellenangebot. Benutzer mussten die Eingabeformate sorgfältig gestalten, um zufriedenstellende Ergebnisse von der KI zu erhalten. Aber jetzt ist dieser Job fast verschwunden. Die KI kann selbst die zerstreuten umgangssprachlichen Eingaben strukturieren, zerlegen und steuern. "Rein vom Effekt her braucht man nicht mehr manuell zu tippen."
Die KI ist immer toleranter gegenüber Eingabeformaten. Die Art und Weise, wie man Anweisungen an die KI gibt, wird immer weniger wichtig. Unter dieser Voraussetzung wird die Eingabemethode mit der höchsten Geschwindigkeit und dem geringsten kognitiven Aufwand natürlich gewinnen, und man muss die Ideen nicht erst