StartseiteArtikel

Künstliche Intelligenz-Sprach-Eingabemethode: Die Menschheit tritt in die Ära des "Nicht-Schreibens" ein

真故研究室2026-01-29 12:12
Das ist ein bahnbrechendes Ereignis. Dies ist ein Artikel, der mithilfe von "Spracherkennung" geschrieben wurde.

Vor einer Woche habe ich eine Sprach-Eingabesoftware namens Typeless heruntergeladen. Damals war mir nicht bewusst, dass sie etwas verändern würde.

Zunächst möchte ich den Hintergrund erklären:

Ab dem zweiten Halbjahr 2025 ist die AI-Sprach-Eingabesoftware ein neuer Trend geworden. Die Doubao-Eingabesoftware, die auf Sprach-Eingabe als Kernfunktion setzt, ist in verschiedenen App-Stores erschienen. Zhipu, eines der sechs großen KI-Modell-Unternehmen, hat die Zhipu AI-Eingabesoftware entwickelt.

Andere große Eingabesoftware-Anbieter haben ebenfalls mehr oder weniger in die AI-Sprach-Eingabe investiert. Am 27. Januar hat die Sougou-Eingabesoftware angekündigt, ihre Sprach-Eingabe-Funktion erheblich zu verbessern. Sie behauptet, dass ihre Erkennungsrate 98 % beträgt und die tägliche Sprach-Nutzungsanzahl fast 2 Milliarden Mal erreicht, was sie zur Nummer eins in der Branche macht.

Das Phänomen ist nicht auf China beschränkt. Das amerikanische Wispr Flow hat bisher 81 Millionen US-Dollar an Kapital beschafft und einen Marktwert von 700 Millionen US-Dollar. Das von chinesischen Entwicklern gegründete Typeless hat seit seiner Veröffentlichung auf Product Hunt ständig an der Spitze der Rangliste gestanden und Versionen für alle gängigen Plattformen herausgebracht. Darüber hinaus haben viele Start-ups und unabhängige Entwickler ähnliche Produkte entwickelt, wie z.B. Shandianshuo, LazyTyper, Spokenly und Miaoyan.

Ich dachte zunächst, dass dies wieder eine kurzlebige Neuerung wäre. In den letzten Jahren sind so viele AI-Produkte auf den Markt gekommen, aber die meisten von ihnen verschwinden nach kurzer Zeit wieder. Daher hatte ich am Anfang keine großen Erwartungen.

Aber ich habe mich geirrt. Dies ist das aufregendste AI-Produkt seit ChatGPT. Innerhalb von weniger als einer Woche habe ich meine 20-jährige Eingabehaltung geändert: Ich benutze jetzt hauptsächlich die Sprach-Eingabe anstelle der Tastatur-Eingabe.

Sogar die erste Version dieses Artikels wurde mit der Sprach-Eingabe geschrieben. Ich habe ein zusätzliches Typeless-Konto erstellt, um die Statistiken für diesen Artikel aufzuzeichnen: Ich habe 53 Minuten gebraucht, um 5.500 Wörter einzugeben, was einer Eingaberate von 155 Wörtern pro Minute entspricht und 2,5 Stunden Zeit erspart hat.

#01

Schneller, genauer und effizienter: Die dominierende Leistung der AI-Sprach-Eingabe

Für mich war es wie ein "Sündenfall", als ich von der Tastatur-Eingabe zur Sprach-Eingabe wechselte.

Ich habe mich immer als Tastatur-Eingabe-Enthusiast betrachtet. Um ein besseres Eingabegerät zu haben, habe ich das Natural Code-Zweifach-Pinyin-System gelernt, die hoch anpassbare Eingabesoftware Rime installiert und mehrere mechanische Tastaturen mit verschiedenen Achsenarten gekauft. Vielleicht verstehen Sie nicht alle Begriffe in diesem Satz, aber das ist egal. Sie müssen nur wissen, dass dies für Tastatur- und Eingabesoftware-Enthusiasten übliche Fachbegriffe sind.

Trotzdem bin ich nur auf eine maximale Eingaberate von 80 bis 90 Wörtern pro Minute gekommen, was für einen Durchschnittlichen schon relativ schnell ist. Die meisten Menschen können nur 40 bis 50 Wörter pro Minute eintippen.

Ich habe mich in einer Gruppe von Eingabesoftware-Enthusiasten versteckt, in der viele Experten zusammenkommen, um über die Entwicklung eigener Eingabesysteme und die Verbesserung der Eingaberate zu diskutieren. Ein Mitglied, der in einer zweiten Liga-Stadt als Universitätslehrer arbeitet, hat ähnliche Erfahrungen wie ich gemacht. Seit Ende 2025 hat er sich vollständig der Sprach-Eingabe verschrieben.

"Ich habe früher auf dem Computer Wubi und auf dem Smartphone Xiaohe-Zweifach-Pinyin benutzt. In meinem besten Stadium konnte ich 130 Wörter pro Minute tippen", sagt er. "Aber im Vergleich zur heutigen AI-Sprach-Eingabe ist die Tastatur-Eingabe einfach zu langsam. Mit der Sprach-Eingabe kann ich sogar 250 Wörter pro Minute eintippen."

Diese Geschwindigkeit ist selbst für professionelle Tipp-Sportler unerreichbar. Der Gewinner des Nationalen Chinesischen Eingabe-Wettbewerbs 2013 hat durchschnittlich nur 175 Wörter pro Minute eingegeben. Selbst ich, der ich nicht der schnellste Redner bin, kann mit der Sprach-Eingabe stetig 150 Wörter pro Minute erreichen und mit etwas Anstrengung sogar den Tipp-Weltmeister schlagen.

Was ist mit der Genauigkeit? Die Antwort ist: sehr hoch. Dies war bereits vor der ChatGPT-Ära der Fall.

Eine gemeinsame Studie von der Stanford University, der University of Washington und Baidu aus dem Jahr 2018 hat gezeigt, dass die Sprach-Eingabe sowohl in Bezug auf die Geschwindigkeit als auch die Genauigkeit der Tastatur-Eingabe überlegen ist.

In Bezug auf die Geschwindigkeit können Muttersprachler von Englisch mit der Sprach-Eingabe 153 Wörter pro Minute eingeben, während die Tastatur-Eingabe nur 52 Wörter pro Minute erreicht. Chinesische Pinyin-Nutzer können mit der Tastatur 43 Wörter pro Minute eintippen, während die Sprach-Eingabe 123 Wörter pro Minute erreicht. Unabhängig von der Sprache ist die Sprach-Eingabe etwa drei Mal schneller als die Tastatur-Eingabe. In Bezug auf die Fehlerrate ist die Sprach-Eingabe ebenfalls besser. Die Fehlerkorrekturrate der chinesischen Sprach-Eingabe beträgt 6,67 %, während die der Tastatur-Eingabe 17,73 % beträgt.

Nach Jahren des rapiden Fortschritts in der KI-Technologie sind die Geschwindigkeit und Genauigkeit der AI-Sprach-Eingabe noch weiter verbessert worden.

Typeless, Zhipu AI-Eingabesoftware und Shandianshuo behaupten, dass ihre Sprach-Eingabe vier Mal schneller ist als die Tastatur-Eingabe. Die LazyTyper-Eingabesoftware behauptet sogar, sieben Mal schneller zu sein als die Tastatur-Eingabe. In Bezug auf die Genauigkeit behauptet Sougou, eine Genauigkeit von 98 % zu haben, während Zhipu auf seiner Website eine Genauigkeit von 97,8 % angibt. Aus Online-Bewertungen und persönlichen Erfahrungen zu urteilen, sind diese Behauptungen nicht übertrieben.

Im Gegensatz zu den großen Eingabesoftware-Anbietern, die eher auf die Verbesserung der Tastatur-Eingabe setzen, gehen die Start-ups und unabhängigen Entwickler noch einen Schritt weiter. Vielleicht müssen sie aggressiver vorgehen, um in einem so wettbewerbsintensiven Markt Fuß zu fassen. Sie haben die Tastatur-Eingabe ganz weggelassen und nur wenige häufig verwendete Tasten beibehalten. Die Sprach-Taste hat damit die zentrale Rolle übernommen.

Die herkömmliche Sprach-Eingabe ist einfach eine Transkription von Gesprochenem in Schrift. Mit der Unterstützung von KI-Modellen ist die neue Sprach-Eingabe jedoch ein viel fortschrittlichereres Produkt, ein sogenanntes "Sprach-Intention-Eingabesystem". Es kann nicht nur die gesprochenen Wörter 1:1 transkribieren, sondern auch die Absicht des Sprechers verstehen, überflüssige Füllwörter entfernen, grammatikalische Fehler korrigieren, inkonsequente Sätze verbessern und sogar die Tonlage anpassen und Übersetzungen und Bearbeitungen vornehmen.

Selbst wenn das Ergebnis falsch ist, kann es mit der Sprache korrigiert werden. Wenn Sie beispielsweise mit Typeless den Satz "Ich möchte nach Yanjin County gehen" eingegeben haben, aber eigentlich "Yanjin County" gemeint haben, können Sie einfach sagen: "Ändere 'yán' in das 'yán' von 'Salz'".

Natürlich werden Sie widersprechen: Die Sprach-Eingabe ist zwar schnell und genau, aber nicht in allen Situationen geeignet. Kann man in einer lauten Umgebung noch verstehen, was man sagt? Ist es nicht peinlich, in der Büroumgebung in das Telefon zu sprechen?

Ich hatte früher auch ähnliche Bedenken, aber nach der Nutzung bin ich von der Sprach-Eingabe überzeugt. Selbst mit leisem Flüstern kann die Eingabe fast fehlerfrei durchgeführt werden.

Nach fünf Tagen des heimlichen Gebrauchs der Sprach-Eingabe in der Büroumgebung habe ich meine Kollegen gefragt, ob sie meine Stimme hören konnten. Ihre Reaktion war:

"Wann hast du denn überhaupt gesprochen?"

Nach Angaben von Sougou hat seine Eingabesoftware noch eine Genauigkeit von 97 % bei einer Stimmlautstärke von weniger als 20 Dezibel. 20 Dezibel entspricht etwa dem Geräusch von sich bewegenden Blättern oder dem Flüstern von fünf Metern Entfernung.

Die derzeit größten Probleme bei der Sprach-Eingabe kommen jedoch aus unerwarteten Quellen. Beispielsweise ist die Genauigkeit der Sprach-Eingabe mit Kopfhörern eher schlechter als ohne.

Die Eingabe einzelner Wörter ist auch weit weniger effektiv als die Eingabe von Sätzen und Absätzen. Je länger der gesprochene Text ist, desto höher ist die Genauigkeit, was auf die Fähigkeit des großen Sprachmodells zurückzuführen ist, die Bedeutung zu verstehen und zu schließen. Je länger der Text ist, desto deutlicher ist seine Bedeutung und desto mehr Kontextinformationen stehen zur Verfügung.

Das Chinesische ist voller homophoner Wörter. Wenn Sie nur ein einzelnes "yì" sagen, ohne Kontext, weiß niemand, ob Sie "Kunst", "unterdrücken", "leicht", "Stadt", "steif", "Million", "Dienst", "Vermutung", "Freude", "studieren", "Epidemie", "auch", "Nachkommen", "Absicht", "Entschlossenheit", "Erinnerung", "Gerechtigkeit", "Nutzen", "überlaufen", "erreichen", "diskutieren", "Freundschaft", "übersetzen", "anders", "Flügel", "morgen", "führen", "abschneiden", "zerstören", "vergessen", "reihum", "Feld", "Ehre", "Samen", "spielen", "herrlich", "ergreifen", "schießen", "träumen", "schlucken", "Gebirge", "freuen", "traurig", "Post", "erhängen", "töten", "ausgehen", "leuchten", "Silber", "Ytterbium", "begraben", "Hysterie", "helfen", "Eidechse", "Bogenschütze" oder "Schatten" meinen.

Es ist nicht nötig, die Wörter zu zählen. Hier gibt es 57 verschiedene "yì", was die homophonste Lautung im Chinesischen ist.

Ich bin jedoch sicher, dass diese Probleme in Zukunft gelöst werden können. So konnten KI-Bilder vor kurzem noch nicht ordnungsgemäß chinesische Schrift darstellen, aber jetzt können Sie mit Nano Banana stabil Bilder mit chinesischen Schriftzeichen generieren.

Dennoch überdecken diese Probleme die größere Vision der AI-Sprach-Eingabe nicht.

Das von mir verwendete Typeless macht bereits aus seinem Namen hervorgeht, dass es nicht nur eine Eingabesoftware sein möchte, sondern die Welt in eine Zeit ohne Tastatur-Eingabe (Typeless) führen will.

Diese Vision ist nicht unrealistisch. Die Eingabesoftware ist zwar einer der am wenigsten beachteten, aber zugleich grundlegendsten Zugänge zum Internet. Die Revolution der KI könnte diesen bereits gesättigten Markt erneut aufrütteln.

#02

Den Eingabebereich überschreiten und einen Super-Zugang erschaffen

In China ist das Internet von der offenen PC-Ära zur geschlossenen Mobil-Ära übergegangen. Die Apps haben sich voneinander abgegrenzt und Inseln gebildet. Selbst heute können Sie nicht einmal in der WeChat-App auf Videos aus der Douyin-App zugreifen, geschweige denn, dass eine Integration der beiden Ökosysteme möglich wäre.

Unter den vielen Apps gibt es nur wenige, die in allen Ökosystemen funktionieren können, und die Eingabesoftware ist eine davon. Überall dort, wo Sie Ihre Meinung äußern möchten, brauchen Sie eine Eingabesoftware. Früher war die Wichtigkeit dieses Zugangs nicht so offensichtlich. Die herkömmlichen Eingabesoftware konnten nicht viel mehr als die Sammlung von Benutzerdaten und die Anzeige von Werbung leisten.

Aber mit der Integration von KI hat die Eingabesoftware eine neue Bedeutung gewonnen. Die KI hat diese alte Technologie wieder attraktiv gemacht und einen Blick auf die Gestalt eines "Super-Zugangs" ermöglicht: Was wäre, wenn diese Eingabesoftware nicht nur zum Tippen verwendet werden könnte, sondern auch über-App-Funktionen oder sogar noch fortschrittlichere Anwendungen ermöglichen würde?

Tatsächlich verfügen die heutigen KI-Systeme bereits über diese Fähigkeiten. Die Doubao-Mobiltelefone waren kürzlich wegen ihrer Fähigkeit, systemweite Anwendungen zu starten, in der Schlagzeile. Allerdings haben viele Apps diesen Ansatz blockiert.

Man kann sich vorstellen, dass die zukünftige AI-Sprach-Eingabe nicht nur eine Ergänzung zur herkömmlichen Tastatur-Eingabe ist, sondern eine echte Revolution. Warum nicht noch weiter gehen und diese Eingabesoftware zum systemweiten AI-Assistenten machen? In einer fernen Zukunft könnte die Sprach-Eingabe nicht nur auf Mobilgeräten, sondern auch in der virtuellen und realen Welt als Schnittstelle dienen.

Vielleicht wird es in Zukunft keine separate Eingabesoftware geben. Die Sprach-Eingabe könnte einfach eine Funktion des systemweiten AI-Assistenten sein. Konkret gesagt, sollte die Zukunft der AI-Sprach-Eingabe wie der ideale Siri aussehen.

Apple scheint dies auch zu verstehen. Laut Berichten wird Apple im Juni 2026 eine neue Version seines AI-Assistenten veröffentlichen, der über dialogfähige Interaktionen verfügt und in die Kernanwendungen wie E-Mail, Musik und Programmier-Software integriert werden soll. Benutzer können einfach in ihr iPhone flüstern, um verschiedene Anwendungen zu starten.

Warum genau die Sprach-Eingabe? Weil die Sprach-Eingabe die natürliche Art der menschlichen Kommunikation ist. Die Rückkehr der Sprach-Eingabe in die zentrale Rolle ist einfach eine Rückkehr zur menschlichen Natur. Die menschliche Kommunikation geht wieder in den natürlichsten und vernünftigsten Zustand zurück.

#