Wenn im Büro alle nur noch gackern: Tippen wird zur alten Kunst!

Das Silicon Valley beginnt zu raunen...

Die Tastatur scheint allmählich zur Antiquität zu werden.

Anfang Februar 2025 hat Andrej Karpathy erstmals das Konzept von "Vibe Coding (Stimmungsprogrammierung)" vorgeschlagen und benannt: Entwickler schreiben nicht mehr Zeile für Zeile Code, sondern beschreiben ihre Anforderungen an KI in natürlicher Sprache und lassen Tools wie Claude Code oder Codex die Arbeit erledigen.

Dieses Konzept ist schnell zum Schlagwort in der KI-Szene geworden und hat sich Ende 2025 zu einer weit verbreiteten Arbeitsweise entwickelt: Alle Wissensarbeitsbereiche beginnen, "dem Gefühl zu folgen" und lassen die KI ihre Ideen in Ergebnisse umsetzen. Menschen haben dieser Arbeitsweise einen neuen Namen gegeben: Vibe Working.

Und für Vibe Working wird natürlich eine reibungslosere Eingabemethode als die Tastatur benötigt. So tritt die Spracheingabe auf die Bühne.

Die Spracherkennung und Vibe Coding verschmelzen: Entwickler gehen während des Arbeitens auf und ab und formulieren ihre Anforderungen mündlich. Sprachtools wandeln die Sprache in Text-Prompts um, und die Programmier-KI wandelt diese Prompts dann in Code um. Die Geschwindigkeit des Denkflusses ist nicht mehr von der Fingerbewegung abhängig.

Diese Verschmelzung hat sogar zu einer unerwarteten Peinlichkeit geführt: Der Mac Mini hat keinen eingebauten Mikrofon.

Auf chinesischen Plattformen wie V2EX, Zhihu und Xiaohongshu ist die Frage "Was tun, wenn ich einen Mac Mini habe und Vibe Coding machen möchte, aber feststelle, dass er kein Mikrofon hat?" zu einer häufigen Frage geworden. Manche Benutzer blättern ratlos durch die Einstellungen, um das Eingabegerät zu finden, und stellen erst dann die "Lücke" des Geräts fest: Der Mac Mini (sowie der Mac Pro und der Mac Studio) hat seit jeher keinen eingebauten Mikrofon.

Quelle: Xiaohongshu @Keerbai

Daher müssen Benutzer, die Vibe Working betreiben möchten, beim Kauf eines Mac Mini zusätzlich ein USB-Mikrofon oder ein Halsmikrofon anschaffen. Apple hat vermutlich nicht vorausgesehen, dass "kein Mikrofon" eines Tages ein schwerwiegender Nachteil eines leistungsstarken Desktop-Computers werden würde, und nicht nur ein kleiner Ärger, den man hat, wenn man vergessen hat, seine Kopfhörer mitzunehmen.

Hinter dieser Peinlichkeit verbirgt sich ein realer Trend. Die Spracheingabe rückt mit einer Geschwindigkeit, die alle erwartet haben, von der Peripherie in die Mainstream-Bereiche.

Silicon Valley Büros, leise Flüstern

Laut einer Meldung der Wall Street Journal hatte die AI-Unternehmerin Mollie Amkraut Mueller aus Seattle einst eine heilige Abendrituale: Sie legte ihre Kinder schlafen, legte sich auf das Sofa und öffnete zusammen mit ihrem Ehemann ihren Computer, um die restlichen Arbeiten des Tages in der Ruhe des Wohnzimmers zu erledigen.

Diese Ruhe wurde später gestört.

Nicht wegen des Weins der Kinder, sondern wegen Mollie selbst: Sie begann in der Nacht leise zu murren, manchmal zu pausieren, manchmal sich selbst zu korrigieren und manchmal weiterzureden. Ihr Ehemann ertrug es eine Zeit lang, bevor er protestierte.

Amkraut Mueller ist von einer Spracherkennungsanwendung namens Wispr Flow begeistert. In Kombination mit Claude Code und Codex kann diese App diskrete Sprachströme in Sekundenschnelle in zusammenhängende und nutzbare Texte umwandeln. Effizient, ja. Aber auch ein bisschen seltsam.

Dieses Seltsame breitet sich wie ein Virus in den Büros von Silicon Valley aus.

In einigen Unternehmen beginnt diese Mode bei einem Mitarbeiter und breitet sich dann heimlich aus. Halsmikrofone erscheinen auf den Arbeitsplätzen. Immer mehr Menschen verzichten auf die Tastatur und geben stattdessen Computer leise Befehle.

Ein Risikokapitalgeber beschreibt, dass ein Besuch in einer AI-Start-up-Firma heute wie ein Besuch in einem gehobenen Call Center wirkt. Nur dass jeder mit der KI spricht. Die Ingenieure der Fintech-Firma Ramp sprechen laut mit ihrer KI-Assistentin über ihre Headsets; Edward Kim, Mitbegründer der Personalverwaltungsfirma Gusto, ermutigt seine Mitarbeiter, die Spracherkennungstechnologie zu testen und prophezeit: "In Zukunft wird ein Büro eher wie ein Verkaufsgeschäft klingen."

Dann führt er voran: "Ich spreche jetzt ständig mit meinem Computer, ich tippe nur, wenn es unbedingt nötig ist."

Der Artikel "Typing Is Being Replaced by Whispering — and It's Way More Annoying" (Das Tippen wird durch Flüstern ersetzt - und es ist viel lästiger) in der Wall Street Journal hat schnell zu einer breiten Debatte geführt. Die Autorin Kate Clark schreibt: "Die Arbeitsweise in ganz Silicon Valley wird neu gestaltet, und die einst ruhigen Büroräume verwandeln sich in laute Lärmnester."

Quelle: Wall Street Journal

Die Guardian hat im selben Monat ebenfalls berichtet und den Artikel "Das Ende des Tippens? Warum Arbeiter plötzlich die Tastatur verlassen" veröffentlicht.

Plötzlich ist "Spracheingabe" zu einem der heißesten Themen in der Tech-Szene geworden.

Wie ist diese Flüsterrevolution überhaupt passiert?

Die Lautstärkeentwicklung in Silicon Valley Büros

Lassen Sie uns zunächst eine kurze Schallarchäologie durchführen.

1998 war das Hauptthema in Büros das Summen des Faxgeräts und das Blinken der roten Leuchte des Anrufbeantworters. 2008 war es das Rattern der Tastatur und das Klingeln des Telefons. 2018 übernahm der Benachrichtigungston von Slack alles.

Und 2026, wenn Sie in ein Silicon Valley AI-Start-up eintreten, hören Sie überall leises Flüstern - jemand sagt "Schicke Zhang San eine E-Mail über die Besprechung morgen", jemand liest "Nein, abbrechen, neu starten", und jemand beschreibt die Logik einer Funktion auf den Bildschirm.

Chad Strickland von der NICH-Studio hat diese Veränderung in Substack festgehalten: "In den letzten Jahren hat sich der Klang in unserem Studio verändert. Wir sind bekannt dafür, dass wir eine ausgewählte Playlist abspielen, von der Ankunft bis zum Verlassen des letzten Mitarbeiters. Aber das Flüstern hat begonnen. Jetzt wählen wir die Musik sehr sorgfältig aus, es darf keine Lyrics geben - deshalb wird die klassische Jazzmusik von Jackie Gleason immer beliebter. Warum? Weil Sie jetzt hauptsächlich die einseitigen Gespräche von Menschen mit ihren Laptops hören. Pausen, halbe Wörter, manchmal ein "Nein, streich das".

Technisch gesehen war der Schlüsselpunkt für diese Veränderung 2022: OpenAI hat das Open-Source-Sprachmodell Whisper veröffentlicht und die Genauigkeit der Spracherkennung auf ein neues Level gebracht. Seitdem hat die Weiterentwicklung beschleunigt. Whisper Large v3 hat in Tests mit sauberem Audio einen Wortfehleranteil von nur etwa 2,7%; Das von OpenAI dieses Jahr veröffentlichte gpt-4o-transcribe-Modell hat in Dritttests sogar einen Fehleranteil von nur 2,5% erreicht. Im Vergleich zu den Sprachmodellen vor fünf Jahren, die einen sehr hohen Fehleranteil hatten, ist dies ein qualitativer Sprung. Seitdem hat der Reifeprozess der KI-Sprachmodelle beschleunigt.

Aber die technische Reife ist nur ein Teil des Puzzles. Was diese Mode wirklich entfacht hat, ist ein Wort: voicepilled.

Im vergangenen Herbst hat Reid Hoffman, Mitbegründer von LinkedIn, auf LinkedIn gestanden: "Ich bin voicepilled." Er argumentiert, dass das Sprechen anstelle des Tippens der nächste große Sprung in der Computerwelt ist. "Voicepilled" ist eine Erkenntnis - wenn Sie nicht mehr von dem Erbe der viktorianischen Schreibmaschine (der Tastatur) gebunden sind, können Sie höhere Produktivität und Kreativität erreichen.

Quelle: LinkedIn: Reid Hoffman

Dieses Wort stammt aus der berühmten "roten und blauen Pille"-Metapher aus dem Film "Matrix": Sobald Sie die rote Pille geschluckt haben und eine andere Welt gesehen haben, können Sie nicht mehr zurück. Das Wort "Voicepilling" ist schnell zur neuen Abkürzung für das Verlassen der Tastatur geworden und verbreitet sich schnell, weil die Genauigkeit der KI-Sprachtools inzwischen so hoch ist, dass es schneller ist, zu sprechen als zu tippen.

Ein aufstrebender Markt

Die Gründungshistorie von Wispr Flow ist recht dramatisch.

Das Unternehmen wurde 2021 von Tanay Kothari und Sahaj Garg gegründet. Ursprünglich war das Ziel nicht, eine Spracherkennungssoftware zu entwickeln, sondern ein nicht-invasives tragbares Gerät mit einer neuronalen Schnittstelle, das die Steuerung von Computern und Smartphones über die Lesung von Nervensignalen ermöglichen sollte. Das Team hat sogar ein Prototyp eines Bluetooth-Headsets entwickelt, das Kothari als "reines Magie" beschreibt. Doch da der Marktbedarf nicht die Erwartungen erfüllte, musste das Unternehmen eine schwierige Umstellung vornehmen, die Teamgröße von etwa 40 auf 4 Mitarbeiter reduzieren und sich auf die Spracherkennungsanwendung konzentrieren. Schließlich hat diese Umstellung zu Wispr Flow geführt, das später viel Aufmerksamkeit erregte.

Diese "erzwungene Umstellung" traf auf einen zeitgemäßen Trend.

Die Mac-Anwendung von Wispr Flow wurde im Herbst 2024 veröffentlicht und hat seitdem stetig an Popularität gewonnen: Die monatlichen aktiven Benutzer haben um 50% zugenommen. Kothari sagt, dass fast jede Top-Venture-Kapitalfirma in Silicon Valley Wispr Flow verwendet, um E-Mails, Notizen und Dokumente zu schreiben. Die Venture-Kapitalgeber selbst sind die begeistertesten Benutzer dieser App, und "was die VC's verwenden" ist in Silicon Valley nie eine Kleinigkeit.

Die Finanzierung folgte: Im Juni 2025 absolvierte Wispr Flow eine Serie A-Finanzierung in Höhe von 30 Millionen US-Dollar, die von Menlo Ventures geleitet wurde; Im November desselben Jahres absolvierte es eine zusätzliche Finanzierung in Höhe von 25 Millionen US-Dollar, die von Notable Capital geleitet wurde, und erreichte einen Schätzwert von etwa 700 Millionen US-Dollar. Laut einer Meldung von Bloomberg im Mai dieses Jahres führt Wispr AI derzeit Verhandlungen über eine neue Finanzierung in Höhe von etwa 260 Millionen US-Dollar, und der Schätzwert könnte auf über 2 Milliarden US-Dollar steigen.

Von einem Vier-Mitarbeiter-Team bis zu einem Schätzwert von 2 Milliarden US-Dollar hat es weniger als drei Jahre gedauert.

Wispr Flow ist nicht allein auf dem Markt. Die frühen Teilnehmer Aqua Voice und Willow sind beide von Y Combinator unterstützt, und es sind weitere Konkurrenten wie TalkTastic, Typeless und Superwhisper aufgetaucht. Die Tech-Medienplattform TechCrunch hat 2025 als das Jahr bezeichnet, in dem die KI-Sprachtools wirklich starteten, und hat mehrere der besten Spracherkennungsanwendungen des Jahres aufgelistet.

Wispr behauptet, dass nach drei Monaten Nutzung durchschnittlich mehr als die Hälfte der Zeichen von den Benutzern per Spracheingabe eingegeben werden. Die 12-Monats-Benutzerretention liegt bei 70%, die Benutzerbasis hat sich im Jahr um das 100-fache vergrößert, und die globale Downloadzahl hat inzwischen die 2,5 Millionen Marke überschritten. Das Produkt hat sich auch in 270 der Fortune 500-Unternehmen etabliert.

Ein interessanter Aspekt: Nur etwa 40% der Eingaben in Wispr Flow sind in Englisch, die restlichen 60% stammen aus anderen Sprachen - Spanisch, Französisch, Deutsch, Hindi, Mandarin usw. Ein Sprachprodukt, das von einer "Silicon Valley-Start-up" entwickelt wurde, wird in über der Hälfte der realen Anwendungsfälle außerhalb von Silicon Valley eingesetzt. Dies ist möglicherweise der am wenigsten beachtete Aspekt des gesamten Spracherkennungs-Trends.

Das Produkt hat auch eine beeindruckende Liste von Prominenten, die es unterstützen. Reid Hoffman hat öffentlich erklärt, dass er "voicepilled" ist; Marc Andreessen, Gründungsmitglied von a16z, hat es als "erstaunlich gut" bezeichnet; Steve Wozniak, Mitbegründer von Apple, ist ein regelmäßiger Benutzer. Rahul Vohra, CEO von Superhuman, hat es als "eines der wichtigsten Verbraucher-KI-Produkte seit ChatGPT" bezeichnet. In Silicon Valley ist "was in den Smartphones der VC's installiert ist" nie nur eine persönliche Wahl - es ist der Anfang der nächsten Finanzierungsgespräche.

Die Tech-Riesen haben auch den Trend erkannt. Im Mai 2026 hat Google auf der Android Show: I/O Edition 2026 die Rambler-Funktion in Gboard veröffentlicht, die von Gemini angetrieben wird und die Spracherkennung ermöglicht. Diese Funktion kann automatisch Füllwörter entfernen, Änderungen im Mittelpunkt verstehen und die Eingabe in mehreren Sprachen unterstützen. Sie wird als ein wichtiger Schritt von Google in den Bereich der KI-Sprachtools angesehen. Ben Greenwood, Leiter der Kernfunktionen von Google Android, hat es als "Neuerfindung der Tastatur" beschrieben.

Für Start-ups ist diese Nachricht ein Mix aus Freude und Sorge: Die Anwesenheit der Riesen ist ein Beweis für die Validität des Marktes, aber auch eine große Konkurrenzbedrohung.

Zur gleichen Zeit treten auch "seltsamere" Anwendungsfälle auf. Allan Guo, Gründer von Willow, hat auf LinkedIn angekündigt: "Ich bin gl

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Wenn im Büro alle nur noch gackern... wird Tippen zu einer alten Kunst

Silicon Valley Büros, leise Flüstern

Die Lautstärkeentwicklung in Silicon Valley Büros

Ein aufstrebender Markt