说话比打字快3倍,用AI的方式正在被重写
越来越多的办公室里,声音不再来自键盘的咔嗒声,而是人对着屏幕低声说话。
有人在向AI口述一份产品需求,有人在用语音给AI布置今天的任务清单,有人告诉AI把40分钟的会议提炼重点。
这不是2030年的科幻画面。
在硅谷YC的共享空间,在上海漕河泾的创业楼层,一批早期AI用户正在用这种方式工作。
其实语音交互不是新鲜事。
Siri诞生近15年,智能音箱也火过一阵,前两次都没能真正改变人们的工作方式。
但这一次,真的不一样了。
办公场景正在改变
先讲一个真实的例子。
在「十字路口」播客的一期节目中,Moxt联合创始人张昊然,描述了他是怎么准备播客访谈的。
“我按了一下语音对AI说:‘我要见十字路口的Koji,你先去网上找一下这人。他想了解Moxt,我要跟他做一个播客,你觉得怎么介绍比较好?聊哪些话题他会比较有兴趣?你先起草一个文档给我。’”
这是直接用语音下达了一个包含多层任务的复杂指令。
AI自己去搜索、理解、整理,输出一个结构化的初稿。
这种工作方式在创业圈和科技博主中蔓延得很快。
他们的反馈几乎一致:效果超出预期。
一个反复被提到的感受是,切换到语音之后,想法变多了。
张昊然还谈到了,他们团队现在怎么开会。
“以前的协作模式是发文档、写评论、再找你聊”,但现在的一对一会议是这样开的:
AI先起草一份文档,两个人开口聊,AI全程录音,聊完之后文档已经自动更新。
这不只是AI把录音转成文字那么简单。
他提到一个细节:现在去找AI说话,完全不需要解释"Moxt是什么""对方是谁"。
AI已经掌握了足够的背景,自己去查,不需要被喂上下文。
这才是这套工作方式真正改变的东西。
AI从一个被动响应的工具,变成了一个持续在场、随时可以接话的参与者。
更极端的变化发生在程序员那里。
2025年初,Andrej Karpathy提了一个概念叫 “Vibe Coding”,开发者可以用语音指挥Claude Code或Cursor这类AI编程工具,直接用嘴写代码。
具体来说,程序员一边看着屏幕上的代码,一边说“把那个报错的函数重写一下,加个异常处理”,AI来改,开发者几乎不用碰键盘。
连写代码这个最依赖键盘、最需要精确输入的工作,都在被语音渗透。
这说明语音作为生产力入口这件事,不只适用于某个特定场景,它在全面泛化。
这次语音真的可以了?
TechCrunch近期对这类工具做了横评,Wispr Flow这类AI语音输入产品正在快速扩散。
Wispr上线10个月,全球下载量超过250万次。
信号很明确,语音输入正在从一个奇怪的习惯,变成一个可以被认真对待的产品品类。
底层逻辑很简单。
大多数人脑子比手快,人说话的速度大约是打字的三倍。
过去脑子里想好的东西,得通过键盘一个字一个字敲出来。你得想清楚再打,打慢了思路就断了,打快了又容易出错。
但语音没有这个问题,想到什么说什么。
一旦习惯了用思考的速度来输出,再回去打字就会觉得很慢。
值得关注的是,这并不是人类第一次做语音交互。语音助手都死过两次了,为什么这一次就可行呢?
回看早期的Siri,技术目标很简单,把人说的话转成文字。
但转成文字之后,得到的是一堆口语化的、跳跃的、充满"呃""然后""就是说"的原始文本,没有人愿意用这个东西干活。
再看后来的Alexa、Google Assistant、Siri进化版,目标升级了,不只是听懂字,还要执行指令。
"帮我设个闹钟""今天天气怎么样",这类事它们确实能做。
但稍微复杂一点,比如"帮我把上午的会议内容整理一下,发给项目组",就彻底歇菜了。
两次失败,表面看是技术不够成熟,本质是同一个问题:
语音产生的是混乱的原材料,过去没有任何东西能处理混乱。
但大模型出现之后,改变了这一切。
你可以说得很乱,AI大模型也能理解你要什么。
模糊的指令、跳跃的逻辑、没说完的半句话、口语里的大量废话,AI都能处理。
这让过去二十年语音产品失败的逻辑,一夜之间全部成立了。
语音交互正在成为趋势
在语音交互领域,技术和产品端正在触碰更底层的东西。
第一个变化来自交互模式。
Thinking Machines最近发布的interaction models,展示了一种更激进的方向。
传统语音交互是回合制:你说完,AI处理,再回你,但这不像真实的对话。
在真实对话里,对方会在你说话的时候打断、接话,会在你停顿的瞬间接上去。
Thinking Machines的方案是实时流式交互:AI边听、边思考、边回应,端到端延迟被压缩到0.4秒以内。
人类对话里自然停顿的间隔大约是0.2秒,0.4秒已经接近真实对话的节奏了。
这意味着,回合制这个语音交互模式,可能比我们想象的更快成为历史。
当AI能真正"插嘴",语音Agent就不再是一个等你说完才开始工作的工具,而是一个真正在场的协作者。
语音Agent,正在从Demo变成可以上线的产品。
另一个信号来自基础设施层。
过去,语音Agent是展示品。
在发布会上听起来很酷,真正要集成进产品里,延迟、稳定性、中断处理全都是问题。
目前,OpenAI 的 Realtime API、AssemblyAI的Voice Agent API、Inworld等平台,开始把语音识别、语音合成、模型推理、打断处理、工具调用,收进更统一的接口里。
开发者用一个API就可以构建生产级语音Agent,整个技术栈可以直接上线。
这意味着语音应用开发的门槛越来越低,接下来可能会快速冒出一批此前不敢想的产品形态。
第三个变化来自入口之争。
Google在2026 Android Show I/O Edition活动中,已经把Gemini听写集成进了Gboard键盘。
这个动作看起来平淡,但对Wispr Flow这类创业公司来说是一个危险信号。
因为入口之争一旦打到操作系统层,规则就变了。
把这几件事放在一起看,能看到一条清晰的脉络:
技术侧,延迟在压缩,实时交互正在从研究变成产品;
基础设施侧,语音Agent从Demo走向可上线;
平台侧,大厂开始把语音输入当作操作系统级功能来卡位。
这是整个行业在同一个时间窗口里,朝同一个方向移动。
语音的阻力
技术能解决问题,但不等于一切。现实中被低估的阻力,往往来自人性。
脱口秀演员鸟鸟讲过一个段子,她说即便被老鼠咬了,都很难立刻喊人来救。
"如果没有人救,我只是可能会死;可是一旦有人救,我还得跟他打招呼"。
全场笑成一片,因为那种感受太真实了。
这就是i人面对语音输入的处境。不是不想说,是开口这件事本身有成本。
打字有草稿感,写错了能删,想清楚再发,没人看见你的过程,但说话没有这个缓冲。
开放办公室让这件事更尴尬。
你对着屏幕低声布置任务,旁边同事的耳朵已经竖起来了。
被听见,才是真正的障碍,噪音是次要的。
所以Wispr这类工具推出的“低声也能识别”功能,某种意义上是在帮社恐续命,你小声嘟囔也能识别。
这解决的不是技术问题,是心理门槛。
这大概是语音输入普及路上最荒诞、也最真实的注脚:
技术已经准备好了,但人还没准备好。
长期来看,即便语音成为新的交互方式,也不会替代打字,但语音的普及会制造效率分化。
那些已经在用语音工作的人,开会有记录,口述有文档,脑子里一闪而过的想法有地方落,他们的想法就更有可能被AI捕捉到。
这才是语音成为生产力入口真正的含义。
本文来自微信公众号“世界模型工场”,作者:世界模型工场,36氪经授权发布。