首页文章详情

当办公室都在咕咕嘎嘎……打字,正在变成一种古老的技艺

机器之心2026-06-04 21:34
硅谷开始喃喃低语……

键盘,似乎正在变成一件古董。

2025 年 2 月初,Andrej Karpathy 首次提出并命名了「Vibe Coding(氛围编程)」这一概念:开发者不再逐行写代码,而是用自然语言向 AI 描述需求,让 Claude Code、Codex 这类工具代劳。

这个概念迅速成为 AI 圈的流行语,并在 2025 年底演变为一种更广泛的工作方式:一切知识工作都开始「顺着感觉走」,让 AI 替你把想法变成输出。人们给这种工作方式起了个新名字:Vibe Working

而 Vibe Working 自然需要一种比键盘更顺滑的输入方式。于是,语音输入登场了。

语音听写正在和 Vibe Coding 合流:开发者一边踱步一边口述需求,语音工具把语音转成文字 prompt,编程 AI 再把 prompt 转成代码。思维流动的速度,不再受限于手指的速度。

这场融合甚至还引发了一个意想不到的尴尬:Mac Mini 没有内置麦克风。

在 V2EX、知乎、小红书等中文平台上,「买了 Mac Mini 想 Vibe Coding,发现没有麦克风怎么办」成了一个高频问题。有人困惑地翻遍设置找不到输入设备,才发现这台机器的「缺陷」:Mac Mini(以及 Mac Pro、Mac Studio)从来就没有内置麦克风。

图源:小红书 @科尔白

于是,想 Vibe Working 的用户,不得不在下单 Mac Mini 的同时,再配一根 USB 麦克风或鹅颈麦。苹果大概没有预料到,有一天「没有麦克风」会成为一台高性能台式机的硬伤,而不只是一个用户忘记带耳机时才会遇到的小烦恼。

这个尴尬背后是一个真实的趋势。语音输入,正在以超出所有人预期的速度,从边缘走向主流。

硅谷办公室,窃窃私语声

据《华尔街日报》报道,西雅图的 AI 创业者 Mollie Amkraut Mueller 曾经有一个神圣的夜晚仪式:哄孩子睡觉,倒在沙发上,和丈夫各自打开电脑,在客厅的宁静中完成一天剩余的工作。

这种平静后来被打破了。

不是因为孩子哭闹,而是因为 Mollie 自己:她开始在夜里对着笔记本电脑低声嘀咕,时而停顿,时而喃喃纠正自己,时而又接着说。她的丈夫忍受了一段时间,然后提出了抗议。

Amkraut Mueller 迷上了一款叫 Wispr Flow 的语音听写应用,用它与 Claude Code、Codex 搭配,能把散漫的意识流语音,在几秒内转化为连贯、可用的文本。高效,是的。但也确实有点奇怪。

这种奇怪,正在硅谷的办公室里以病毒式速度蔓延。

在一些公司里,这场风潮是从一名员工开始的,然后悄悄蔓延开去。鹅颈式麦克风开始出现在工位上。越来越多的人放弃键盘,转而对着电脑低语指令。

有位风险投资人描述说,今天去拜访 AI 创业公司,就像走进了一家高端呼叫中心。只不过每个人都在和 AI 聊天。金融科技公司 Ramp 的工程师们戴着游戏耳机大声和 AI 助理交谈;人力资源公司 Gusto 的联合创始人 Edward Kim 鼓励员工尝试语音听写技术,并预言「未来的办公室听起来会更像一个销售楼层」。

然后他以身作则:「我现在一直在和我的电脑说话,除非万不得已,我不打字。」

这篇题为《Typing Is Being Replaced by Whispering — and It's Way More Annoying》(打字正在被低语取代——而且烦人多了)的《华尔街日报》报道迅速引发广泛讨论。文章作者 Kate Clark 写道:「整个硅谷的工作方式正在被重塑,曾经平静的办公空间正在变成嘈杂的声音巢穴。」

图源:《华尔街日报》

《卫报》也在同月跟进,发表了《打字的终结?为什么工人们突然开始抛弃键盘》。

一时间,「语音输入」成了科技圈最热门的话题之一。

这场低语革命,到底是怎么发生的?

硅谷办公室的声音变迁

让我们先做一次简短的声景考古。

1998 年,办公室的主旋律是传真机的拨号嘟鸣声和答录机红灯的闪烁。2008 年,是键盘噼里啪啦的打字声和电话铃声。到了 2018 年,Slack 的消息提示音接管了这一切。

而 2026 年,你走进一家硅谷 AI 创业公司,听到的是此起彼伏的低语——有人在说「给张三发一封关于明天会议的邮件」,有人在念「不,取消,重新开始」,有人则在对着屏幕描述一个函数的逻辑。

NICH 工作室的 Chad Strickland 在 Substack 上记录了这一变化:「过去一年,我们工作室的声音变了。我们一直以播放精选歌单著称,从进门到最后一个人离开,音乐不停。但是,低语声开始了。现在我们在音乐的选择上非常谨慎,不能有歌词——Jackie Gleason 的古典爵士乐于是开始流行起来。为什么?因为你现在听到的,主要是人们对着笔记本电脑展开单边对话。停顿,半截的词,偶尔一句『不,划掉那句』。」

技术上,促成这场变化的关键节点是 2022 年:OpenAI 发布了开源语音识别模型 Whisper,将语音转文字的准确率推到了一个新高度。此后迭代持续加速。Whisper Large v3 在干净音频基准测试中,词错误率已降至约 2.7%;OpenAI 今年推出的 gpt-4o-transcribe 模型,在第三方评测中甚至跑出了 2.5% 的低错误率。相比五年前错误率极高的语音识别工具,这是质的飞跃。从那时起,AI 语音大模型的成熟期开始加速到来。

但技术的成熟,只是拼图的一块。真正点燃这场风潮的,是一个词:voicepilled

去年秋天,LinkedIn 联合创始人 Reid Hoffman 在 LinkedIn 上坦白:「I am voicepilled。」他论证说,用说话代替打字是计算机领域的下一次伟大飞跃。所谓「voicepilled」,是一种顿悟——当你不再被那个维多利亚时代的打字机遗产(也就是键盘)束缚时,你可以拥有更高的生产力和创造力

图源:LinkedIn:Reid Hoffman

这个词来自电影《黑客帝国》中著名的「红蓝药丸」比喻:一旦你吞下红药丸,看见了另一个世界,就再也回不去了。Voicepilling 这个词迅速成为抛弃键盘的新简称,并以快速传播,因为 AI 语音听写工具的准确率已经高到足以让说话比打字更快

一个正在爆发的市场

Wispr Flow 的创业历程颇具戏剧性。

公司由 Tanay Kothari 和 Sahaj Garg 于 2021 年创立,最初目标并非做语音输入软件,而是开发一种带有神经接口的非侵入式可穿戴设备,希望通过读取用户神经信号,实现对电脑和智能手机的控制。团队后来甚至打造出了一款被 Kothari 形容为「像纯粹魔法一样」的蓝牙耳机原型。然而,由于市场需求未能达到预期,公司不得不进行艰难转型,将团队规模从约 40 人缩减到 4 人,并将重心转向语音听写产品。最终,这条转型路线催生了后来广受关注的 Wispr Flow。

这次「被迫转型」,撞上了一个时代的风口。

Wispr Flow 的 Mac 应用于 2024 年秋季上线,此后一路高歌:每月活跃用户增长 50%。Kothari 表示,硅谷几乎每一家顶级风投基金都在使用 Wispr Flow 撰写邮件、备忘录和文件。VC 们自己成了这款产品最狂热的用户,而「VC 用什么」这件事,在硅谷从来都不是小事。

融资随之而来:2025 年 6 月,Wispr Flow 完成由 Menlo Ventures 领投的 3000 万美元 A 轮融资;同年 11 月,又完成了由 Notable Capital 领投的 2500 万美元追加融资,估值达到约 7 亿美元。而根据彭博社今年五月的报道,Wispr AI 正就一轮约 2.6 亿美元的新融资进行谈判,估值有望突破 20 亿美元。

从 4 人小团队到 20 亿美元估值,用了不到三年。

Wispr Flow 并非孤军奋战。早期入场的 Aqua Voice 和 Willow 均为 Y Combinator 支持的公司,此后又有 TalkTastic、Typeless、Superwhisper 等一批竞争者涌入。科技媒体 TechCrunch 将 2025 年评为 AI 语音听写应用真正腾飞的一年,并盘点出多款年度最佳语音听写工具。

Wispr 自称,在用户使用三个月后,平均每位用户超过一半的字符已通过语音输入完成。公司 12 个月用户留存率达 70%,用户基础年增长 100 倍,目前全球下载量已突破 250 万次,并已渗透至财富 500 强中的 270 家企业。

有一个细节值得一提:Wispr Flow 的用户中,英语输入仅占约 40%,其余 60% 来自非英语语言——西班牙语、法语、德语、印地语、普通话等。一款「硅谷创业公司」做出来的语音产品,超过半数的真实使用场景,其实发生在硅谷以外。这或许是整个语音输入趋势最被低估的一个侧面。

这款产品的名人背书阵容也颇为耀眼。Reid Hoffman 公开宣布自己「voicepilled」;a16z 创始合伙人 Marc Andreessen 称其「好得令人震惊(staggeringly good)」;苹果联合创始人 Steve Wozniak 也是日常用户。Superhuman CEO Rahul Vohra 则将它称为「自 ChatGPT 以来最重要的消费者 AI 产品之一」。在硅谷,「VC 们的手机里装了什么」这件事,从来不只是个人选择——它是下一轮融资对话的前奏。

科技巨头也嗅到了风向。2026 年 5 月,谷歌在 Android Show: I/O Edition 2026 上发布了 Gboard 内置的 Gemini 驱动 AI 语音听写功能 Rambler。该功能能够自动去除口头禅、理解用户的中途修改,并支持多语言混合输入,被视为谷歌正式进入 AI 语音听写赛道的重要一步。谷歌 Android 核心体验总监 Ben Greenwood 将其描述为「重新发明键盘」。

对创业公司来说,这个消息喜忧参半:巨头亲自入场,是市场被验证的最好证明,同时也是最大的竞争威胁。

与此同时,更「奇葩」的使用场景也在涌现。Willow 的创始人 Allan Guo 在 LinkedIn 上宣布:「我很高兴地宣布,我们已经把键盘从全球最权威的电视奖项里移除了。」——2026 年艾美奖的筹备团队,正在用 Willow 的语音听写工具来处理 Slack 消息、清空收件箱。

图源:LinkedIn:Lawrence Liu & Allan Guo

当一台高性能 Mac 的工位上开始长出鹅颈麦,当艾美奖的运营团队开始对着屏幕小声嘀咕,这场变化就不再只是硅谷的极客把戏了。

根据 Mordor Intelligence 今年一月的报告,全球语音识别市场规模在 2026 年估计达到约 225 亿美元,预计到 2031 年将增长至 617 亿美元,年复合增长率约 22.4%。这还只是「语音识别」这一个细分方向,整个语音 AI 领域的市场空间,要远不止于此。

当连谷歌都开始把语音听写内置到默认键盘里时,这件事的走向就已经清晰了。

而中国市场的情况,比外界想象的更早热起来。

中国用户的语音输入习惯,其实比硅谷的「voicepilling 风潮」早。

这与中文输入法生态的发展路径密切相关。相比许多西方用户长期依赖键盘输入,中国用户很早便开始通过手机输入法使用语音转文字功能。有研究者认为,中文语音识别与拼音输入体系之间存在天然协同,使语音输入更容易融入日常沟通场景;与此同时,移动互联网时代积累的输入习惯,也为语音交互的普及提供了土壤。

在这一过程中,第三方输入法厂商持续推动了语音输入能力的升级。搜狗、讯飞、百度等头部产品长期占据市场主导地位,其中讯飞输入法一直将 AI 语音技术作为核心竞争力。根据讯飞官方资料,其语音输入目前已支持 200 余种方言、30 多种外语,并提供离线语音识别能力。

最近半年,中国语音输入市场更进入了一轮明显的产品升级周期。

2025 年 12 月,微信输入法 iOS 版从 2.2.6 直接升级至 3.0。此次更新几乎将语音能力置于产品中心位置:语音大模型全面升级,支持 15 种方言(包括粤语、四川话、上海话等),语音输入取消时长限制,并新增离线识别能力。

同月,字节跳动推出豆包输入法,登陆 Android 和 iOS 平台,将豆包大模型直接嵌入键盘。产品主打「语音输入又快又准」,同时引入情境感知能力,可根据工作、聊天等不同场景提供差异化建议。今年 5 月,豆包输入法进一步推出 macOS 版本,延续了「按下 Fn 键即可开口说话」的语音交互思路,Windows 版本也已进入筹备阶段。

更值得关注的是,语音输入正在从手机场景向 PC 场景扩张。2026 年初,微信电脑版更新后开始支持更广泛的语音输入调用能力。用户不仅可以在微信聊天窗口中使用语音转写,也能够在文档编辑、办公协作和网页输入等场景中直接完成语音输入。与此同时,系统还引入了自动清理口头禅等功能,对转写结果进行进一步优化。

从产品演进方向来看,中国厂商正在尝试把语音输入从一种辅助功能,逐渐变成跨应用、跨场景的基础交互能力。虽然硅谷所讨论的「voicepilling」更多聚焦于通过语音向 AI Agent 或大模型下达复杂指令,而中国市场长期以来主要服务于日常信息输入,但两者的发展方向正在逐渐靠拢。

无论是 AI 工作流中的语音指挥,还是日常沟通中的语音转写,本质上都指向同一个趋势:语音正在重新成为人与计算机之间最自然的人机接口之一

亲历者说:爱它的人和讨厌它的人

当然,不是每个人都爱这场低语革命。

爱它的人这样描述:「Wispr 在我们几乎所有的事情上都比打字快——起草邮件、整理想法、向其他 AI 工具下指令。它也让人感觉有点荒诞。我工作了大半辈子,声音一直是你想跟另一个人说话时才用的东西。」Strickland 写道,「但我们可以保证,这东西快、高效、而且让人上瘾。」

独立软件开发者 Geoffrey Huntley 则把这种工作方式描述得更加生动。他说,自己启动项目时,会先打开一个语音提示框,让 AI 就需求和顾虑来「采访」自己,然后才开始生成代码。他说:「我跟它说话,就像在爵士乐队里即兴演奏——前后来回,前后来回。」

纽约语音听写应用 Monologue 的总经理 Naveen Naidu 则给出了一个更宏观的判断:「那些已经大量使用语音的人,不会再回头了。一旦你每周对着笔记本电脑说 20 个小时,打字就变成了一种摩擦。我认为未来的走向是:语音成为「委托层」——你说出你的意图,事情就发生了。」

图源:小红书 @超级斜杠

HR 咨询师 Claire Koryczan 则从积极角度解读了这一现象:「在当今日常生活中,口头交流已经变得越来越少见,所以一项鼓励人们强化对话沟通能力的技术,只会是一种积极的发展。」

从纯粹的效率角度看,数字也站在语音这边。普通专业人士的打字速度约为每分钟 40 至 60 个词,而说话速度则高达 130 至 150 词——AI 语音听写将这一速度差距转化为实实在在的生产力增益。Wispr Flow 则声称其速度比打字快五倍。

但怀疑者同样有理由。

图源:小红书 @Bob

首先是尴尬感。一个人对着自己说话,是奇怪的,甚至有点令人难堪的。这不是技术问题,而是根深蒂固的社会规范:我们并不习惯在公开场合对着机器低语。这种感觉在今天有多陌生,就像二十年前在饭桌上接听手机一样。

其次是隐私问题。开放式办公室本就饱受批评,噪音和隐私双双不足。当语音听写成为常态,在众目睽睽之下说出敏感的客户信息、财务数据或商业机密,不可避免地带来新的隐患。有些工具将音频传输到云端服务器,这意味着用户的每一句话都可能经过第三方的服务器。隐私政策这件事,在「我只是想快点回完这封邮件」的紧迫感下,常常被遗忘。

第三是认知负担。大约 48% 的员工表示,言语交流是办公室里最令人分心的噪音来源。工人们平均每天因对话干扰损失 21.5 分钟的工作时间。你可能想通过语音输入来提高效率,但你的同事可能正在被你的低语声打断思路。

还有一种更深层的忧虑,来自英国《皇家公报》评论员的警告:「如果这些 AI 功能有朝一日消失,你会发现自己不知道当初是怎么完成工作的,就像你现在已经无法在没有 GPS 的情况下去到一个熟悉的地方一样。技能的退化不会一蹴而就。」

办公室礼仪需要重写了

「你能小声点吗?」这句话在开放式办公室里可能会越来越常见。

办公室设计也将随之改变。专属「语音区」、隔音舱,甚至建筑结构上的调整,可能都将成为必要。企业也需要更新工作场所政策,规定可接受的噪音水平和个人麦克风、耳机的使用规范。

一些公司已经开始摸索。Computerworld 的专栏作者 Mike Elgan 观察到,从蓝牙耳机的兴起,到在餐厅接电话的正常化,再到公共场合视频通话的普及——每一次技术带来的行为变化,都经历了从「令人不适」到「理所当然」的转变。语音听写,不过是这个序列中的下一个。

他认为,主流媒体聚焦于「办公室里的新奇怪规范」,其实错过了更大的文化转变:语音交互不仅在改变办公室,也通过移动端和可穿戴设备,在公共生活的每一个角落重塑人与技术的关系。

谷歌在 Android 大会上宣布 AI 眼镜将于今年秋天发货;Meta、Snap、亚马逊的智能眼镜产品线也在扩张。AI 眼镜将是大多数人接触到的第一款「语音优先」设备,它们将把语音交互带入人们全天候的生活场景中。当我们开始对着眼镜低声下达指令、发送邮件、完成文字工作时,在咖啡馆或地铁里对着屏幕小声嘀咕,会显得格外平常。

这个场景,距离现在并不遥远。

尾声:键盘,拜拜了您呢?

回到那个更宏大的问题:键盘,真的要消失了吗?

历史告诉我们,键盘虽然很可能会被戏称为「古法输入」,但并不会消失,就像手写从未真正消失一样。但它的角色将收缩,成为一种备用方式。

语音,将成为默认输入。「未来的生产力将被口述,而不是被打字。」

这也许过于乐观,也许过于悲观,但有一点是确定的:从打字机到键盘,从鼠标到触屏,每一次「人如何与机器交谈」的方式发生改变,都意味着一场深刻的认知与社会重组。

语音,并不是一项新技术。它是人类最古老的表达方式。AI,不过是让我们回到了一个更原始、也更自然的起点:用嘴说,而非用手敲。

只不过,现在的听众,不再是另一个人。

参考链接

1.https://www.wsj.com/tech/typing-is-being-replaced-by-whisperingand-its-way-more-annoying-a804fee7

2.https://www.bloomberg.com/news/articles/2026-02-06/voice-to-text-ai-lets-office-workers-talk-instead-of-type

3.https://www.theguardian.com/technology/2026/may/12/end-of-typing-workers-ditching-keyboards-voicepilling-ai-dictation

4.https://www.thecultureedit.com/p/whisper-while-you-work

5.https://www.computerworld.com/article/4175881/ai-will-kill-the-skill-of-typing.html

6.https://www.royalgazette.com/opinion-writer/opinion/article/20260518/keep-your-keyboard-in-ai-revolution/

7.https://www.bloomberg.com/news/articles/2026-05-12/ai-dictation-startup-wispr-in-funding-talks-at-2-billion-value

8.https://techcrunch.com/2025/06/24/wispr-flow-raises-30m-from-menlo-ventures-for-its-ai-powered-dictation-app/

9.https://techcrunch.com/2025/11/20/as-its-voice-dectation-app-takes-off-wispr-secures-25m-from-notable-capital/

10.https://x.com/alliekmiller/status/1969420607172292789

11.https://techcrunch.com/2026/05/12/google-adds-gemini-powered-dictation-to-gboard-which-could-be-bad-news-for-dictation-startups/

12.https://www.androidheadlines.com/2026/05/google-gboard-rambler-ai-voice-dictation-features.html

13.https://news.mydrivers.com/1/1076/1076402.htm

14.https://willowvoice.com/blog/voice-dictation-open-offices-quiet-mode

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:语音输入中的,36氪经授权发布。