说话速度比打字快3倍：AI正重写沟通方式

语音，正在成为新的生产力入口

越来越多的办公室里，声音不再来自键盘的咔嗒声，而是人对着屏幕低声说话。

有人在向AI口述一份产品需求，有人在用语音给AI布置今天的任务清单，有人告诉AI把40分钟的会议提炼重点。

这不是2030年的科幻画面。

在硅谷YC的共享空间，在上海漕河泾的创业楼层，一批早期AI用户正在用这种方式工作。

其实语音交互不是新鲜事。

Siri诞生近15年，智能音箱也火过一阵，前两次都没能真正改变人们的工作方式。

但这一次，真的不一样了。

办公场景正在改变

先讲一个真实的例子。

在「十字路口」播客的一期节目中，Moxt联合创始人张昊然，描述了他是怎么准备播客访谈的。

“我按了一下语音对AI说：‘我要见十字路口的Koji，你先去网上找一下这人。他想了解Moxt，我要跟他做一个播客，你觉得怎么介绍比较好？聊哪些话题他会比较有兴趣？你先起草一个文档给我。’”

这是直接用语音下达了一个包含多层任务的复杂指令。

AI自己去搜索、理解、整理，输出一个结构化的初稿。

这种工作方式在创业圈和科技博主中蔓延得很快。

他们的反馈几乎一致：效果超出预期。

一个反复被提到的感受是，切换到语音之后，想法变多了。

张昊然还谈到了，他们团队现在怎么开会。

“以前的协作模式是发文档、写评论、再找你聊”，但现在的一对一会议是这样开的：

AI先起草一份文档，两个人开口聊，AI全程录音，聊完之后文档已经自动更新。

这不只是AI把录音转成文字那么简单。

他提到一个细节：现在去找AI说话，完全不需要解释"Moxt是什么""对方是谁"。

AI已经掌握了足够的背景，自己去查，不需要被喂上下文。

这才是这套工作方式真正改变的东西。

AI从一个被动响应的工具，变成了一个持续在场、随时可以接话的参与者。

更极端的变化发生在程序员那里。

2025年初，Andrej Karpathy提了一个概念叫 “Vibe Coding”，开发者可以用语音指挥Claude Code或Cursor这类AI编程工具，直接用嘴写代码。

具体来说，程序员一边看着屏幕上的代码，一边说“把那个报错的函数重写一下，加个异常处理”，AI来改，开发者几乎不用碰键盘。

连写代码这个最依赖键盘、最需要精确输入的工作，都在被语音渗透。

这说明语音作为生产力入口这件事，不只适用于某个特定场景，它在全面泛化。

这次语音真的可以了？

TechCrunch近期对这类工具做了横评，Wispr Flow这类AI语音输入产品正在快速扩散。

Wispr上线10个月，全球下载量超过250万次。

信号很明确，语音输入正在从一个奇怪的习惯，变成一个可以被认真对待的产品品类。

底层逻辑很简单。

大多数人脑子比手快，人说话的速度大约是打字的三倍。

过去脑子里想好的东西，得通过键盘一个字一个字敲出来。你得想清楚再打，打慢了思路就断了，打快了又容易出错。

但语音没有这个问题，想到什么说什么。

一旦习惯了用思考的速度来输出，再回去打字就会觉得很慢。

值得关注的是，这并不是人类第一次做语音交互。语音助手都死过两次了，为什么这一次就可行呢？

回看早期的Siri，技术目标很简单，把人说的话转成文字。

但转成文字之后，得到的是一堆口语化的、跳跃的、充满"呃""然后""就是说"的原始文本，没有人愿意用这个东西干活。

再看后来的Alexa、Google Assistant、Siri进化版，目标升级了，不只是听懂字，还要执行指令。

"帮我设个闹钟""今天天气怎么样"，这类事它们确实能做。

但稍微复杂一点，比如"帮我把上午的会议内容整理一下，发给项目组"，就彻底歇菜了。

两次失败，表面看是技术不够成熟，本质是同一个问题：

语音产生的是混乱的原材料，过去没有任何东西能处理混乱。

但大模型出现之后，改变了这一切。

你可以说得很乱，AI大模型也能理解你要什么。

模糊的指令、跳跃的逻辑、没说完的半句话、口语里的大量废话，AI都能处理。

这让过去二十年语音产品失败的逻辑，一夜之间全部成立了。

语音交互正在成为趋势

在语音交互领域，技术和产品端正在触碰更底层的东西。

第一个变化来自交互模式。

Thinking Machines最近发布的interaction models，展示了一种更激进的方向。

传统语音交互是回合制：你说完，AI处理，再回你，但这不像真实的对话。

在真实对话里，对方会在你说话的时候打断、接话，会在你停顿的瞬间接上去。

Thinking Machines的方案是实时流式交互：AI边听、边思考、边回应，端到端延迟被压缩到0.4秒以内。

人类对话里自然停顿的间隔大约是0.2秒，0.4秒已经接近真实对话的节奏了。

这意味着，回合制这个语音交互模式，可能比我们想象的更快成为历史。

当AI能真正"插嘴"，语音Agent就不再是一个等你说完才开始工作的工具，而是一个真正在场的协作者。

语音Agent，正在从Demo变成可以上线的产品。

另一个信号来自基础设施层。

过去，语音Agent是展示品。

在发布会上听起来很酷，真正要集成进产品里，延迟、稳定性、中断处理全都是问题。

目前，OpenAI 的 Realtime API、AssemblyAI的Voice Agent API、Inworld等平台，开始把语音识别、语音合成、模型推理、打断处理、工具调用，收进更统一的接口里。

开发者用一个API就可以构建生产级语音Agent，整个技术栈可以直接上线。

这意味着语音应用开发的门槛越来越低，接下来可能会快速冒出一批此前不敢想的产品形态。

第三个变化来自入口之争。

Google在2026 Android Show I/O Edition活动中，已经把Gemini听写集成进了Gboard键盘。

这个动作看起来平淡，但对Wispr Flow这类创业公司来说是一个危险信号。

因为入口之争一旦打到操作系统层，规则就变了。

把这几件事放在一起看，能看到一条清晰的脉络：

技术侧，延迟在压缩，实时交互正在从研究变成产品；

基础设施侧，语音Agent从Demo走向可上线；

平台侧，大厂开始把语音输入当作操作系统级功能来卡位。

这是整个行业在同一个时间窗口里，朝同一个方向移动。

语音的阻力

技术能解决问题，但不等于一切。现实中被低估的阻力，往往来自人性。

脱口秀演员鸟鸟讲过一个段子，她说即便被老鼠咬了，都很难立刻喊人来救。

"如果没有人救，我只是可能会死；可是一旦有人救，我还得跟他打招呼"。

全场笑成一片，因为那种感受太真实了。

这就是i人面对语音输入的处境。不是不想说，是开口这件事本身有成本。

打字有草稿感，写错了能删，想清楚再发，没人看见你的过程，但说话没有这个缓冲。

开放办公室让这件事更尴尬。

你对着屏幕低声布置任务，旁边同事的耳朵已经竖起来了。

被听见，才是真正的障碍，噪音是次要的。

所以Wispr这类工具推出的“低声也能识别”功能，某种意义上是在帮社恐续命，你小声嘟囔也能识别。

这解决的不是技术问题，是心理门槛。

这大概是语音输入普及路上最荒诞、也最真实的注脚：

技术已经准备好了，但人还没准备好。

长期来看，即便语音成为新的交互方式，也不会替代打字，但语音的普及会制造效率分化。

那些已经在用语音工作的人，开会有记录，口述有文档，脑子里一闪而过的想法有地方落，他们的想法就更有可能被AI捕捉到。

这才是语音成为生产力入口真正的含义。

本文来自微信公众号“世界模型工场”，作者：世界模型工场，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

说话比打字快3倍，用AI的方式正在被重写

办公场景正在改变

这次语音真的可以了？

语音交互正在成为趋势

语音的阻力