StartseiteArtikel

Sprechen ist dreimal schneller als Tippen, und die Art und Weise, wie mit KI gearbeitet wird, wird neu geschrieben.

世界模型工场2026-05-14 20:05
Sprache wird zum neuen Produktivitätseingang.

In immer mehr Büros stammt der Sound nicht mehr aus dem Klicken der Tastatur, sondern aus leisen Gesprächen von Menschen vor dem Bildschirm.

Manche dictieren einem KI-System eine Produktanforderung, andere geben einem KI-System mit der Stimme die heutige Aufgabenliste, wieder andere bitten die KI, die 40-minütige Sitzung auf die wesentlichen Punkte zu reduzieren.

Dies ist kein Science-Fiction-Szenario aus dem Jahr 2030.

In den gemeinsamen Arbeitsräumen von YC im Silicon Valley und auf den Startup-Etagen in Shanghai's Caohejing arbeiten eine Gruppe von frühen KI-Nutzern auf diese Weise.

Tatsächlich ist die Sprachinteraktion kein neues Phänomen.

Siri ist seit fast 15 Jahren auf dem Markt, und intelligente Lautsprecher waren auch für eine Zeit populär. Die beiden früheren Versuche konnten das Arbeitsverhalten der Menschen jedoch nicht wirklich verändern.

Diesmal ist es aber wirklich anders.

Die Bürolandschaft ändert sich

Erzählen wir zunächst ein echtes Beispiel.

In einer Folge des Podcasts "Crossroads" beschrieb Zhang Haoran, Mitbegründer von Moxt, wie er sich auf ein Podcast-Interview vorbereitet hat.

"Ich drückte auf die Sprachfunktion und sagte zu der KI: 'Ich werde Koji aus Crossroads treffen. Such mal im Internet nach ihm. Er möchte sich über Moxt informieren, und ich mache mit ihm ein Podcast. Wie soll ich ihn am besten vorstellen? Über welche Themen würde er sich am meisten interessieren? Entwirf mir erstmal ein Dokument.'"

Dies war eine komplexe Anweisung mit mehreren Ebenen von Aufgaben, die direkt per Sprache gegeben wurde.

Die KI sucht selbst, versteht und ordnet die Informationen und gibt einen strukturierten ersten Entwurf aus.

Dieses Arbeitsverfahren verbreitet sich schnell in der Startup-Szene und bei Tech-Bloggern.

Ihre Rückmeldungen stimmen fast überein: Die Ergebnisse übertreffen die Erwartungen.

Einer der wiederholt erwähnten Eindrücke ist, dass nach dem Wechsel zur Sprache mehr Ideen entstehen.

Zhang Haoran sprach auch darüber, wie sein Team jetzt Sitzungen führt.

"Früher war das Arbeitsmuster, Dokumente zu senden, Kommentare zu schreiben und dann miteinander zu sprechen", aber jetzt sieht eine Einzelgesprächs-Sitzung so aus:

Die KI entwirft zunächst ein Dokument, zwei Personen sprechen miteinander, die KI nimmt die ganze Zeit auf, und nach dem Gespräch ist das Dokument bereits automatisch aktualisiert.

Es ist nicht einfach, dass die KI die Aufnahme in Text umwandelt.

Er erwähnte ein Detail: Wenn man jetzt mit der KI spricht, muss man nicht erklären, "Was ist Moxt" oder "Wer ist der andere".

Die KI hat bereits genügend Hintergrundinformationen und sucht selbst, ohne dass man ihr den Kontext vorsetzen muss.

Dies ist das, was sich wirklich an diesem Arbeitsverfahren ändert.

Die KI ist von einem passiv reagierenden Werkzeug zu einem ständig anwesenden und jederzeit antwortbereiten Teilnehmer geworden.

Noch extremer ist die Veränderung bei Programmierern.

Anfang 2025 brachte Andrej Karpathy das Konzept "Vibe Coding" auf den Plan. Entwickler können mit der Stimme AI-Programmierwerkzeuge wie Claude Code oder Cursor steuern und direkt mit der Stimme Code schreiben.

Genauer gesagt, während ein Programmierer den Code auf dem Bildschirm ansieht, sagt er: "Schreibe die fehlerhafte Funktion neu und füge eine Ausnahmebehandlung hinzu", und die KI macht die Änderungen. Der Entwickler muss fast nie die Tastatur berühren.

Sogar das am stärksten von der Tastatur abhängige und am präzisesten einzutippende Arbeitsgebiet, das Schreiben von Code, wird von der Sprache penetriert.

Dies zeigt, dass die Sprache als Produktivitätseingang nicht nur für einen bestimmten Anwendungsfall geeignet ist, sondern sich allgemein durchsetzt.

Funktioniert die Sprache dieses Mal wirklich?

TechCrunch hat kürzlich eine Gegenüberstellung solcher Tools durchgeführt. AI-Sprach-Eingabeprodukte wie Wispr Flow verbreiten sich schnell.

Wispr hat innerhalb von 10 Monaten seit seinem Start weltweit über 2,5 Millionen Downloads erreicht.

Das Signal ist klar: Die Sprach-Eingabe entwickelt sich von einer seltsamen Gewohnheit zu einer ernstzunehmenden Produktkategorie.

Die zugrunde liegende Logik ist einfach.

Bei den meisten Menschen ist das Denken schneller als das Tippen. Die Sprechgeschwindigkeit eines Menschen ist etwa dreimal so hoch wie die Tippgeschwindigkeit.

Früher musste man die Gedanken, die man im Kopf hatte, Zeichen für Zeichen per Tastatur eintippen. Man musste sich genau überlegen, bevor man tippte. Tippte man zu langsam, brach der Gedankengang ab, tippte man zu schnell, machte man leicht Fehler.

Bei der Sprache gibt es dieses Problem nicht. Man kann sagen, was man gerade denkt.

Hat man einmal an die Geschwindigkeit des Denkens gewöhnt, scheint das Tippen sehr langsam.

Es ist bemerkenswert, dass dies nicht das erste Mal ist, dass Menschen mit der Sprache interagieren. Sprachassistenten sind bereits zweimal gescheitert. Warum funktioniert es diesmal?

Schauen wir uns Siri in der frühen Phase an. Das technische Ziel war einfach: Die gesprochenen Wörter in Text umzuwandeln.

Aber nachdem die Wörter in Text umgewandelt wurden, war das Ergebnis ein haphazardes, sprunghaftes, mit "äh", "dann", "das heißt" durchsetztes Rohmaterial. Niemand wollte damit arbeiten.

Schauen wir uns nun die späteren Versionen von Alexa, Google Assistant und Siri an. Das Ziel wurde erweitert: Es geht nicht nur darum, die Wörter zu verstehen, sondern auch Befehle auszuführen.

"Stelle mir einen Wecker" oder "Wie ist das Wetter heute" können sie tatsächlich tun.

Aber bei etwas Komplexeren, wie "Ordne die Inhalte der Morgenbesprechung für die Projektgruppe zusammen und sende sie an sie", scheitern sie völlig.

Die beiden Misserfolge scheinen auf den ersten Blick an der unzureichenden Technologie zu liegen, aber es liegt im Wesentlichen das gleiche Problem vor:

Die Sprache erzeugt chaotisches Rohmaterial, und in der Vergangenheit gab es nichts, das dieses Chaos verarbeiten konnte.

Aber seit der Entstehung der großen Modelle hat sich alles verändert.

Man kann ungeordnet sprechen, und die großen KI-Modelle verstehen, was man will.

Unklare Anweisungen, sprunghafte Logik, halbfertige Sätze und viel unnützes Gerede können die KI verarbeiten.

Dadurch sind die Gründe für die Misserfolge von Sprachprodukten in den letzten zwanzig Jahren plötzlich nicht mehr zutreffend.

Sprachinteraktion wird zur Tendenz

Im Bereich der Sprachinteraktion berühren Technologie und Produkte die tieferen Ebenen.

Die erste Veränderung betrifft das Interaktionsmodell.

Thinking Machines hat kürzlich Interaktionsmodelle vorgestellt, die einen radikaleren Ansatz zeigen.

Die traditionelle Sprachinteraktion ist auf Runden basiert: Man spricht, die KI verarbeitet und antwortet dann. Dies entspricht jedoch nicht einem echten Gespräch.

Bei einem echten Gespräch unterbricht der Gegenüber, antwortet während des Gesprächs und nimmt direkt nach einer Pause auf.

Das Konzept von Thinking Machines ist die Echtzeit-Streaming-Interaktion: Die KI hört, denkt und antwortet gleichzeitig. Die Latenzzeit von Ende zu Ende wird auf weniger als 0,4 Sekunden reduziert.

Die natürlichen Pausen in menschlichen Gesprächen betragen etwa 0,2 Sekunden. 0,4 Sekunden nähern sich bereits dem Rhythmus eines echten Gesprächs.

Dies bedeutet, dass das auf Runden basierte Sprachinteraktionsmodell möglicherweise schneller Geschichte wird, als wir denken.

Wenn die KI tatsächlich "unterbrechen" kann, ist der Sprach-Agent nicht mehr ein Werkzeug, das erst nach dem Ende des Gesprächs beginnt zu arbeiten, sondern ein wahrhaft anwesender Mitarbeiter.

Sprach-Agents entwickeln sich von Demonstratoren zu einsatzfähigen Produkten.

Ein weiteres Signal kommt aus der Infrastrukturschicht.

Früher waren Sprach-Agents nur Showpieces.

Bei der Produktpräsentation klang es cool, aber wenn man sie in ein Produkt integrieren wollte, gab es Probleme mit der Latenzzeit, der Stabilität und der Unterbrechungsbehandlung.

Derzeit beginnen Plattformen wie OpenAI's Realtime API, AssemblyAI's Voice Agent API und Inworld, die Spracherkennung, die Sprachsynthese, die Modellinferenz, die Unterbrechungsbehandlung und den Werkzeugaufruf in ein einheitlichereres Interface zu integrieren.

Entwickler können mit einer einzigen API einen produktionsreifen Sprach-Agent erstellen, und der gesamte Technologiestack kann direkt in Betrieb genommen werden.

Dies bedeutet, dass die Schwelle für die Entwicklung von Sprachanwendungen immer niedriger wird, und es könnte in naher Zukunft eine Reihe von Produktformen auftauchen, die man sich bisher nicht vorstellen konnte.

Die dritte Veränderung betrifft den Wettlauf um den Zugang.

Google hat bei der Android Show I/O Edition 2026 die Gemini-Diktierfunktion in die Gboard-Tastatur integriert.

Dieser Schritt scheint banal, aber für Startups wie Wispr Flow ist es ein Gefahrensignal.

Wenn der Wettlauf um den Zugang auf Betriebssystemebene ausgetragen wird, ändern sich die Regeln.

Wenn man diese Dinge zusammen betrachtet, wird ein klarer Zusammenhang sichtbar:

Technisch gesehen wird die Latenzzeit reduziert, und die Echtzeitinteraktion entwickelt sich von einer Forschung zu einem Produkt.

Aus infrastruktureller Sicht entwickeln sich Sprach-Agents von Demonstratoren zu einsatzfähigen Produkten.

Von den Plattformen her beginnen die großen Unternehmen, die Sprach-Eingabe als Betriebssystemfunktion zu etablieren.

Die gesamte Branche bewegt sich in der gleichen Zeitspanne in die gleiche Richtung.

Die Widerstände der Sprache

Technologie kann Probleme lösen, aber das bedeutet nicht alles. Die in der Realität unterschätzten Widerstände kommen oft aus der menschlichen Natur.

Die Stand-up-Comedianin Niaoniao erzählte ein Sketch. Sie sagte, dass es ihr selbst schwer fiele, sofort um Hilfe zu rufen, selbst wenn sie von einer Maus gebissen würde.

"Wenn niemand hilft, sterbe ich vielleicht. Aber wenn jemand hilft, muss ich ihm noch grüßen."

Das Publikum lachte, weil das Gefühl so real war.

Das ist die Situation von Introvertierten bei der Sprach-Eingabe. Es ist nicht, dass sie nicht sprechen wollen, sondern das Sprechen selbst hat Kosten.

Beim Tippen hat man das Gefühl, wie wenn man einen Entwurf schreibt. Man kann Fehler löschen, sich überlegen, bevor man sendet, und niemand sieht den Prozess. Beim Sprechen gibt es diesen Puffer nicht.

Offene Büros machen die Sache noch peinlicher.

Wenn man leise vor dem Bildschirm Aufgaben erteilt, werden die Ohren der Kollegen nebenan aufgestellt.

Wird man gehört, ist das der wirkliche Hindernis, das Rauschen ist nur sekundär.

Deshalb ist die Funktion "Auch leises Sprechen wird erkannt", die Tools wie Wispr anbieten, in gewisser Weise ein Lebensretter für Sozialphobe. Man kann leise murren, und es wird trotzdem erkannt.

Dies löst kein technisches Problem, sondern einen psychologischen Hürde.

Dies ist vielleicht der am meisten absurde und zugleich realste Vermerk auf dem Weg zur Verbreitung der Sprach-Eingabe:

Die Technologie ist bereit, aber die Menschen sind es noch nicht.

Langfristig wird die Sprache, auch wenn sie zur neuen Interaktionsweise wird, das Tippen nicht ersetzen. Aber die Verbreitung der Sprache wird zu einer Effizienzdifferenz führen.

Diejenigen, die bereits mit der Sprache arbeiten, haben Sitzungsprotokolle, dictierte Dokumente und einen Ort, an dem die vorübergehenden Gedanken in ihrem Kopf landen können. Ihre Ideen werden wahrscheinlicher von der KI erfasst.

Dies ist die wahre Bedeutung der Sprache als Produktivitätseingang.

Dieser Artikel stammt aus dem WeChat-Account "World Model Factory", Autor: World Model Factory. Veröffentlicht von 36Kr mit Genehmigung.