首页文章详情

专访时空壶CEO:不惧苹果入局,AI翻译耳机远未到终局

欧雪2025-11-12 09:30
关注点在于交流场景本身。

作者丨欧雪

编辑丨袁斯来

当巨头都想做点软硬件结合时,它们动动手指,足以震碎很多创业公司脚下的冰面。

在AI翻译准确率突破95%的2025年,AI翻译耳机或许是最容易被巨头吞噬的硬件品类。它们不需要做什么硬件层面的改动,只需要集合软件功能。

过去一两年,几乎每个安卓厂商都在自己的耳机里加入了翻译功能。但直到9月10日凌晨,当苹果宣布AirPods要推出实时翻译功能后,翻译耳机的创业者们才真切感觉到寒意——全球TWS中,苹果一家就占了23%的份额。

翻译是个显而易见的需求,迟早会成为所有大厂耳机的标配。这场冲击并不意外。

其实,2023年左右,AI翻译软件免费后,大量白牌早就充斥市场。不想卷价格的独立厂牌杀出重围后,又不得不直面巨鳄撕咬。

深圳企业时空壶(Timekettle)是坚持下来的硬件厂商之一。翻译行业竞争愈演愈烈时,时空壶2024年其营收达2亿元,2025年累计营收持续大幅增长,连续六年行业第一,累计用户超过百万,覆盖全球170多国。

时空壶创始人田力出身华为。或许和过去的行业经历有关,时空壶一直坚持硬件优先。其旗下翻译耳机定价千元,通过硬件实现“边说边译”,努力还原自然的对话体验。

而面对苹果的AI功能,时空壶创始人田力有他自己的应对。“巨头的逻辑是在现有生态上叠加翻译功能,”时空壶创始人田力表示,“而我们的逻辑是重构整个跨语言交流系统。”

这不是时空壶独一家的挑战。“整个翻译行业来看,行业的成熟度都还不够。”田力称。这是一个需求细分的时代,他们必须在无数缝隙中找到差异化定位。

田力认为,目前AI更多是直译,能理解文化语境自然翻译的,可能只有10%到20%。AI是技术理性的一个高峰,它能完成基础的翻译,但语言需要情感赋予更多意义。一个要让人持续使用的翻译产品,决不能只有工具属性。

语言障碍是一个古老且普遍的问题,翻译这个职业存在了数千年。”田力表示,“人类翻译很多时候不是逐词翻译,而是理解你的意图并准确表达出来。”

对此,大公司未必有耐心去做持续、细微的优化。这也成为创业公司的机会。 

我们和田力做了一次对话,和他讨论了目前的市场竞争以及AI耳机的未来走向。

 

行业尚在早期

硬氪:你觉得目前AI翻译领域的竞争状况如何?

田力:我们其实不是很关注业内竞争,这是一个很真实的回答。最核心的原因在于,我觉得整个行业的成熟度还不够。现在比谁做得好就像“比烂”,没太大意义。

目前行业的竞争烈度其实不高,但作为业内跑得较前面一点的企业来说,我们确实会受到更多的模仿,比如双向同传、外放对话这些模式都是我们先做的。

我们的核心始终是解决问题,尤其是解决人们的交流障碍。语言障碍是一个古老且普遍的问题,翻译这个职业存在了数千年,解决这个问题极具价值。我们不想盲目追逐热点,而是希望有一天,用户不再记得我们是做耳机还是硬件,而是知道我们能帮助他们克服语言障碍。

硬氪:那你怎么看待谷歌、苹果等大厂也进入翻译领域?会有压力吗?

田力:首先再次表示,我们其实不是特别关注竞争,因为这个行业确实还不够成熟。其次,巨头的逻辑是在其现有生态上“叠加功能”(如苹果在AirPods上加翻译),而我们的逻辑是“重构整个交流系统”。出发点不同,最终解决方案的效率和体验也会不同。

硬氪:那与竞争对手相比,时空壶的核心护城河是什么?

田力:我觉得还是在认知层面上。我们关注点在于交流场景本身,而非某种具体的硬件形态。我们从一开始就不是单纯地聚焦于耳机这种形态,而是思考耳机这种交互体验能否让两个人交流得更自然。如果做不到,我们就会对耳机进行改造。这也就是为什么我们前几代产品甚至没有使用蓝牙耳机芯片,因为我们的重心根本不在打电话这些传统功能上。随着时间推移,这种底层逻辑会形成品牌、用户心智上的护城河。

W4 AI同传耳机-骨声纹识别技术(图源/企业)

硬氪:时空壶海外收入占比达70%,在适应不同市场的文化、语言和政策时,遇到过哪些意想不到的挑战?

田力:最有挑战性的还是对用户的理解。在中国,大量场景与商务洽谈相关。但在美国,作为移民大国,约20%的人口是移民,其中约50%的移民,也就是2000多万人,英语水平有限。很多人在跨国移民生活中会用到我们的产品,这在国内可能觉得新奇,但在国外却很常见。 

硬氪:目前公司的财务状况如何?是否盈利?

田力:公司已经实现盈利。我们并不刻意追求营收的高速增长,而是更注重保持健康的盈利能力和产品成熟度。在行业早期,追求竭泽而渔的增长反而会带来反噬。

硬氪:目前很多翻译设备依赖云端大模型。但业界也有“端侧AI”的强烈趋势。时空壶是否会考虑布局“端侧AI”?

田力:端侧AI对我们来说非常重要,因为在很多地方网络条件并不理想。人们对我们的产品要求很高,一旦网络不好,两个人就无法交流,立刻陷入困境。所以,端侧AI是我们必须布局的。

硬氪:未来会考虑除了“语音”外其他的多模态交互方式吗?比如手势、语气?

田力:这是一个很大胆的想法。像一些眼镜公司所做的多模态输入,通过手势来理解意图是比较难的,因为手势是非标准化的。

但你提到的语气,我觉得这部分相对可以标准化。比如愤怒、疑问、困惑或高兴的语气,是可以逐渐往标准化方向推进的。这也是我们内部正在研究的方向。

 

AI翻译离自然还很远

硬氪:你觉得AI翻译和人工翻译这两者未来的关系会是怎样的?时空壶怎么定义两者的关系?

田力:我们把AI翻译也像自动驾驶一样分成了L1到L5,我认为现在大家能做到的大概是一个L3的水平。而人类的水平,特别是对于那种高级的译员水平,他毫无疑问是L4甚至L5的。

L3和L4、L5最大的区别,我觉得本质上在于信任程度。L3只是可用,而L4和L5则是你真正可以放心地将事情交给它,让它帮你去交流和解决问题。

这里面的迭代包含两个方面,第一是它需要像人一样有同理心,能够理解并传达你真正想表达的意思,而不仅仅是直译。人类翻译很多时候就是这样,不是逐词翻译,而是理解你的意图并准确表达出来,这就是从L3到L4的一个关键分界线。第二则是产品本身,交互体验上还有很多细节需要打磨。

硬氪:从L3到L4的跃迁,你觉得大概要多久?

田力:我觉得可能乐观的话,大概需要2到3年。因为这里面有两个部分需要共同进化,前者属于整个业界都在推进的领域,是大智能体系下的一个分支;而后者则需要产品公司去细致琢磨,用户在体验层面还能如何进一步提升。

硬氪:在用户体验层面,其实不同语言中的文化隐喻、俚语很多。时空壶怎么尝试理解和保留这些“言外之意”?

田力:我觉得这恐怕是整个行业面临的问题,仅靠一己之力很难全部搞定。目前我们能做的,可能是在收集语料方面做一些工作,比如在中英、西班牙语等语言上进行更多尝试。但从长期来看,像谷歌这样的大公司会做一些基础性的工作,我们则可以站在巨人的肩膀上,专注于我们更擅长的细节部分。

硬氪:那你觉得目前AI翻译对文化理解的程度有多少?

田力:我觉得目前可能只有10%到20%,大家还是刚往直译的角度去做尝试。但我相信时间不会太长,可能再过半年左右,你就会看到我们的产品有显著进化。

比如,现在产品已经分为基本AI翻译和大模型翻译两种模式。从技术角度看,这是不同的技术路径。但从消费者角度看,他们关注的是翻译能否善解人意,还是完全不改变原意、不曲解的死板翻译。到时候你会看到这两种模式会有显著区别。

硬氪:那对于翻译中出现的“幻觉”(胡编乱译)或错误,你如何看待和界定其中的责任?

田力:实事求是地说,比如在美国,我们的产品在医疗机构也有一些应用场景。但目前来看,相关责任的界定还并不清晰。

就像自动驾驶汽车出车祸后法律界定尚不明确一样,目前,我们的应用更多还处于L3层面,主要是辅助性质的。不过,AI翻译还没有达到像自动驾驶那样严肃的程度,毕竟自动驾驶涉及人命关天的问题。

W4Pro AI同传耳机 商务洽谈(图源/企业)

硬氪:下一代AI翻译设备会是什么样子?时空壶有没有一些最新的研究方向可以分享?

田力:最理想的未来产品其实很简单,使用时能达到我们现在自然沟通的效果。但我们都清楚,距离这个目标还很远,这正是我们正在努力的方向。

目前,我们始终围绕两条技术主线展开工作。第一是收音质量,即使在复杂环境下也能精准收音。这与传统耳机的最大区别在于,传统耳机强调收音干净,而我们不仅要求干净,还要求音质足够好,以便传输到云端后能让机器更好地识别和翻译。第二是AI本身的智能层面,比如能否支持更多小语种,以及在同理心和更精准的意义翻译上做得更好。

未来2-3年,最核心、最压倒一切的目标就是将产品体验从L3提升到L4。我们相信,一旦实现这个目标,公司的业绩、利润等财务指标都自然不再是问题。