手机之外,AI硬件还有哪些机会?从豆包手机说起
编者按
在“赢者通吃”看似固化的市场里,挑战者具备足够的战略耐心与系统能力依然可以破局。
近期,豆包手机助手引发了一场颇具戏剧性的争议。这款号称能“接管手机”的 AI 应用,因其模拟点击、屏幕识别等能力,一度被用户视为“终于懂我的 AI 队友”。它精准击中了用户在多应用间频繁切换的痛点,描绘出了一幅智能体高度自主化的未来图景。然而好景不长,微信、支付宝及多家银行 App 接连发出风险预警与技术封锁,迅速将这场狂欢推向了“生态围剿”的尴尬境地。
舆论场的撕裂颇为典型。支持者痛斥互联网巨头利用垄断地位扼杀创新,认为这是旧势力对新技术的打压。反对者则担忧数据安全与隐私边界,认为这种“系统级接管”带来了不可控的风险。但如果我们跳出这种“创新对峙垄断”的二元对立情绪,从商业演进的视角审视,会发现双方或许都未触及问题的核心。
这场争论的焦点——创新权利与生态安全——固然重要,但都回避了一个更根本的问题:在这个数字生态中,豆包究竟站在了什么位置?为什么它的技术路径会引发如此强烈的反制?本文试图从生态位、连接方式和实现路径三个维度,探讨这个问题的答案。同时,我们也想追问:AI 与硬件结合的黄金时代,真正的机会究竟在哪里?
豆包的三重困境
困境一:生态位的根本性错配
要理解豆包的第一重困境,我们需要引入一个关键概念:生态中心度。简单来说,中心度衡量的是一个产品对用户核心资源的掌控程度——包括操作系统级权限、账户体系、数据主权、以及由此衍生的生态话语权。中心度越高,产品在生态中的话语权越大,受制于人的程度越低。手机恰恰是一个高中心度产品的集大成者,也是巨头严防死守的超级战场。
而豆包手机助手的生态位是什么?它既不是操作系统,无法从底层调度资源;也不是超级 App,缺乏独立的账户体系与数据沉淀。它是一个第三方应用,试图通过模拟点击和屏幕识别,去“接管”其他应用的操作流程。这种生态位的本质是低中心度——它对用户的核心资源没有任何实质性的掌控力。
这种错配带来的是一场结构性的不对等竞争。豆包试图用低权限姿态,去夺取高权限生态的控制权。它想要操控微信发消息、让支付宝完成转账、指挥银行 App 查询余额,但它既没有这些巨头的底层权限,也没有用户对这些巨头的信任背书。这就像试图在现有生态体系内建立新的协调机制,却缺乏生态主导者的授权与支持——即便暂时拥有了某种技术手段,也必然面临生态主导者的反制,因为这种方式从根本上挑战了现有的权限分配体系。
更深层的矛盾在于,豆包的价值主张本身就建立在侵蚀现有生态控制权的基础上。它越是成功,就越威胁到操作系统与超级 App 的核心利益。这不是技术创新与旧势力的对抗,而是一个低中心度工具试图重构高中心度生态规则。在商业竞争中,这种错配的代价往往是致命的。
困境二:连接方式的结构性脆弱
豆包的技术路径看似巧妙,实则建立在极度脆弱的地基之上。这种脆弱性体现在技术与利益两个层面,它们共同构成了一种寄生式连接的宿命。
从技术层面看,豆包依赖模拟点击和屏幕识别来实现跨应用操作。这意味着它必须精确识别每个 App 的界面元素——按钮在哪里、输入框在哪里、确认键在哪里。但这些界面并非静态不变。微信每一次版本更新都可能调整聊天界面的布局,支付宝的一次改版就能让转账流程完全变样,银行 App 的安全升级更是频繁。每一次界面变化,都会导致豆包精心构建的操作脚本失效。这种依赖性不是偶然的技术缺陷,而是寄生模式的内在属性——寄生者的生存依赖于宿主的稳定性,而宿主不仅没有义务为寄生者保持稳定,反而有动力通过改变来驱逐寄生者。
更致命的是利益层面的冲突。这种冲突存在三个递进的层次。
第一层是数据主权的争夺。AI 助手要实现真正的智能化,必须深度理解用户的行为模式——这意味着它需要访问微信的社交关系图谱、支付宝的消费记录、日历的行程安排、健康应用的体征数据。但这些数据恰恰是超级 App 建立护城河的根基。微信的社交关系链支撑起了它的广告精准投放与小程序生态,支付宝的消费数据是其信用评估与金融服务的核心资产。
第二层是商业逻辑的零和博弈。让腾讯、阿里向一个第三方系统开放这些核心数据接口,等同于要求它们主动拆除自己的商业壁垒。这不是技术对接的问题,而是利益分配的根本冲突。豆包获取的每一份数据主权,都意味着巨头们失去的一块领地。当微信发现豆包在读取用户的聊天记录,当支付宝发现豆包在分析用户的消费行为,它们的风控系统会做出唯一理性的反应——封杀。这不是保守,而是商业自卫的本能。
第三层是用户心理的抗拒。即便巨头们愿意在监管压力下做出某种妥协,用户是否愿意接受这种深度绑定?当一个系统需要全面渗透你的数字生活才能提供价值时,它已经不再是一个可随时更换的工具,而是变成了你数字人格的托管者。这种深度依赖带来的不仅是数据泄露的风险焦虑,更是对自主权丧失的本能抵触。一旦将所有行为轨迹交由 AI 统筹,用户与系统的关系就从“主动使用”转变为“被动依赖”,这种心理阈值的跨越,远比技术实现困难得多。
寄生式连接无法建立稳定的商业关系。宿主随时可以通过技术升级或策略调整,切断寄生者的生存空间。豆包的困境不是技术不够先进,而是它选择了一种从根本上无法持续的连接方式。相反,如果能建立一种让宿主也能获益的共生式连接,情况将完全不同——这正是我们后文模式三的核心逻辑。
困境三:实现路径的致命缺陷
汽车的发明并非在马身上装个发动机,而是重构了整个交通工具的底层逻辑——从生物动力到机械动力,从马车车架到内燃机底盘。这个比喻之所以重要,是因为它揭示了技术革命的本质:真正的革新不是在旧模式上叠加新技术,而是从根本上重构实现路径。
需要澄清的是,“AI 中间层”本身并非错误的方向。语音交互、意图理解、智能代理,这些都是未来人机交互演进的必然趋势。问题不在于引入 AI 作为中介,而在于豆包选择的具体实现方式——通过模拟点击来实现自动化。这恰恰是一种“在马身上装发动机”式的过渡性实现方式:马的身体结构(App 的 UI 界面)并非为发动机(AI 自动化)设计,强行组合的结果是既保留了旧模式的所有缺陷(界面脆弱性、权限限制),又引入了新技术的额外成本(监督负担、信任焦虑),最终得到的是一匹跑不快还容易散架的“机械马”。
这种路径设计导致了一种致命的体验缺陷:半自动化的尴尬。
核心问题在于信任边界的模糊。当你亲手操作时,每一步都在视觉与触觉的双重反馈中完成,出错了能立刻察觉并纠正。但当 AI 通过模拟点击代劳时,你必须在最后一步进行全局检查——订机票时你真的敢不核对航班信息就付款吗?发消息前你真的敢不确认收件人和内容就发送吗?这种强制性的二次确认,实际上将原本的“3 步操作”扩展为“观察 AI 执行 10 步 + 人工确认 1 步”。用户的注意力从未离开,甚至因为无法实时干预而更加紧张。
豆包的半自动化既未达到完全自动的解放感,也打破了手动操作的掌控感。它陷入了自动化的“结构性的信任挑战”——用户既不能完全放手,也无法直接干预。这种体验的本质问题不是技术不够智能,而是实现路径的选择错误。当你选择用模拟点击去“接管”用户操作时,就注定要面对这个结构性的信任挑战。
更本质的矛盾在于,手机 20 年的进化方向是消除中间层,让人与信息直接对话。从输入法的智能预测,到 App 的快捷操作,再到小组件的一屏直达,所有优化都在减少用户的操作步骤。而豆包通过模拟点击实现的“自动化”,实际上在重新插入一个复杂的、不透明的中间层。这不是技c//术先进与否的问题,而是产品体验的根本倒退。
从困境到出路
豆包的三重困境揭示了一个更宏观的问题:在手机这个被巨头严防死守的超级战场上,试图通过寄生式的技术手段夺取控制权,注定是一场不可能获胜的战争。但这并不意味着豆包应该放弃 AI 硬件。豆包拥有国内领先的 AI 能力,这是真正的硬实力。问题不在于能力,而在于能力的释放方式。
既然手机战场困难重重,我们需要寻找新的方向。避开高中心度巨头的直接对抗,建立可持续的连接方式,选择正确的实现路径——三种截然不同的模式由此浮现(表1)。
这三种模式的选择逻辑各有侧重:模式一通过重构价值主张,让硬件成为用户数字资产的托管者,建立主权级的护城河;模式二通过重构关键活动,在巨头力所不及的垂直场景构建端到端闭环;模式三通过重构渠道通路,绕过 App 的界面层,建立基于 API 的共生式连接。这三种模式都不试图操控用户的手机和现有 App,而是通过重构商业模式要素,开辟新的价值空间。
表1 AI硬件的三种商业模式
模式一:本地数据中枢——重构“价值主张”
核心逻辑:成为用户数字资产的本地托管者,通过数据积累建立不可替代的护城河。
这一模式的关键在于:让硬件设备成为用户数字生活的中枢,本地存储和管理用户最核心的数字资产——账号凭证、个人偏好、历史操作记录、私密数据等。与云端服务不同,本地托管带来三个独特优势:绝对的隐私控制,敏感数据不上传云端,用户拥有完全的所有权和控制权;离线可用性,不依赖网络连接,设备随时可以调用本地数据提供服务;即时响应,本地数据访问速度远超云端,带来更好的用户体验。
随着使用时间延长,设备上积累的数据越来越多,形成强大的锁定效应。当用户的数字身份、习惯模式、偏好设置都深度绑定在这台设备上时,更换设备的成本变得极高。更重要的是,这些本地数据为 AI 提供了无可替代的增值空间——基于用户历史行为的个性化推荐、基于偏好数据的智能决策、基于私密信息的贴心服务,这些都只有本地 AI 能做到。
对 AI 硬件的启示:豆包可以推出一款定位于“个人数字资产管家”的 AI 硬件。它不去模拟点击手机上的 App,而是让用户主动将核心数据托管到设备。比如,通过导入功能,用户可以将历史聊天记录、工作文档、个人照片、健康数据等一次性迁移到设备。设备通过本地 AI 模型建立语义索引,用户可以随时询问:“我在哪次会议上讨论过季度目标?”或“帮我找出去年关于项目 A 的所有讨论”。
关键在于两点:用户对数据拥有完全主权,设备仅作为本地处理器,不会将数据上传云端,从根本上消除了隐私担忧。随着用户导入的数据越来越多,设备的价值呈指数级增长——它从一个工具变成了用户数字生活的“外挂大脑”,用户不愿意也无法轻易更换。
模式二:垂直场景专用硬件——重构“关键活动”
这一模式的核心在于针对某一特定高价值场景,设计专用的 AI 硬件。这里的硬件不仅仅是算法的容器,更是通过专用的传感器或处理能力,在特定场景下提供比手机高出 10 倍的效率。其关键特征在于“端到端闭环”:硬件本身就能完成核心价值的交付,不依赖外部服务商的 API 接口,也不依赖手机的通用计算能力。
在探讨成功案例前,我们必须审视 Humane AI Pin 的败局。这款曾被寄予厚望的产品,试图通过投影和语音交互完全取代智能手机,挑战通用场景。它的失败提供了三个关键教训:
教训一:不要在手机最擅长的领域挑战手机。在发邮件、查地图、浏览信息流等通用场景中,智能手机经过二十年的进化,其触控交互已经达到了效率的巅峰——肌肉记忆与视觉反馈的完美配合,实现了毫秒级的响应与确认。
教训二:交互方式的改变必须带来效率提升,而非倒退。试图用语音交互去替代这种“所见即所得”的高效触控,不仅效率不升反降,还增加了用户的认知负担。用户发现,用 AI Pin 发送一封邮件需要反复确认语音识别是否准确,而用手机只需几秒钟。
教训三:酷炫的技术不等于好的产品。这是一种典型的“为创新而创新”,技术虽酷,体验却倒退。AI 硬件的机会因此变得清晰:不是挑战手机的通用场景,而是在手机力不从心的垂直场景寻找突破口。
相比之下,Plaud Note 展示了正确的打开方式。这家 2022 年成立的深圳公司,2023 年在 Kickstarter 上众筹时获得了超过目标 20 倍的资金支持,2024 年出货量突破 50 万台。它没有试图取代手机,而是专注于“商务录音”这一个极窄的切面。
在商务会议或电话沟通中,手机录音往往面临诸多痛点:环境嘈杂导致音质差、多人会议无法区分说话人、录音文件占用空间大。更痛苦的是事后整理,听完一个小时的录音并手动整理笔记,往往需要耗费两个小时,且难以快速检索关键信息。Plaud Note 给出的解决方案是典型的“垂直专用”策略。在硬件层,它通过 MagSafe 吸附在手机背面,利用波束成形麦克风阵列获取演播室级的高质量声源,在设备内直接完成降噪。在软件层,它通过云端 AI 进行声纹分离、语音转文字和智能摘要生成。更关键的是,它彻底重构了交付层:它不试图去操控你的飞书或钉钉 App,而是生成一份结构化的链接。用户只需点击链接,即可一键将整理好的内容导入任何协作软件。
这种“专用硬件+本地闭环”的逻辑,在其他场景同样有效。
首先是 AI 健康监测手环。手机健康 App 无法做到 24 小时贴身监测,且数据往往是碎片化的。专用的可穿戴设备可以持续采集心率、血压、血氧乃至睡眠数据,利用本地化的小型 AI 模型分析长期健康趋势。当识别到心律异常或睡眠呼吸暂停风险时,设备直接通过语音或震动提醒用户。这种模式的关键在于硬件本身完成了“采集+分析+预警”的闭环,不需要对接医院的 API 即可提供核心价值。
其次是 AI 儿童学习伴侣。在家长无法陪伴的场景下,手机往往是分散孩子注意力的干扰源。专用的 AI 学习硬件(如智能台灯或机器人)构建了一个纯净的交互环境。通过语音对话练习英语口语,或引导孩子讲解数学解题思路,硬件内置的本地 AI 模型能实时评测发音准确度或逻辑完整性。它内置了教育内容和评测能力,不依赖外部在线教育平台的实时服务,确保了学习的专注度。
再看 AI 车载安全助手。传统的行车记录仪只是被动的“黑匣子”,只能事后查看。AI 安全助手利用边缘计算芯片,实时分析路况视频流,识别驾驶员的疲劳状态、分心行为或跟车距离过近,并通过语音实时预警。这种对低延迟要求极高的场景,必须依靠本地硬件的算力闭环,而非云端服务,从而在关键时刻挽救生命。
此外,在消费级市场之外,这种模式在特定人群中也有巨大的生命力。老人看护终端,在跌倒检测或服药提醒场景中,老人无法操作复杂的手机,专用设备可通过佩戴式传感器与语音/灯光提醒完成监测与干预,家属可远程接收告警并查看历史记录。
由此,我们可以提炼出判断一个场景是否适合做垂直 AI 硬件的四个黄金标准——这些标准在 Plaud Note 及上述所有案例中都得到了验证:
- 标准一:专用传感器需求。该任务需要专用的传感器或输入设备(如 Plaud Note 的麦克风阵列、健康手环的生物传感器、车载助手的摄像头),手机的通用硬件无法满足。
- 标准二:闭环交付能力。任务流程可以在设备端或自有云端形成闭环,不依赖第三方服务商的接口。Plaud Note 不需要调用飞书的 API,健康手环不需要医院的数据接口,学习伴侣不需要在线教育平台的实时授课。
- 标准三:市场规模与付费意愿。目标用户群体足够大且具备付费能力。商务人士愿意为效率买单,家长愿意为孩子的教育投资,健康焦虑者愿意为安心付费。
- 标准四:效率跃升门槛。也是最重要的一点,AI 介入后能提供至少 10 倍的效率提升。Plaud Note 将 2 小时压缩到 5 分钟,健康手环将被动监测变为主动预警,学习伴侣将碎片化练习变为系统化辅导。
在商业模式上,垂直场景专用硬件往往采用“硬件+订阅”的组合拳。硬件的首次销售覆盖制造成本并建立物理连接,而后续的高级 AI 功能(如无限时长的录音转写、更深度的健康报告)则构成持续的订阅收入。这种模式的溢价能力来自于在垂直场景的不可替代性——用户购买的不是一个电子产品,而是“被专业化解决的问题”。
模式三:API 服务连接器——重构"渠道通路"
第三种方向则更具颠覆性。与模式二强调硬件本身的计算能力不同,模式三的核心逻辑是:以对话式 AI 作为意图入口,价值的交付依赖于对接外部服务商的 API。这种模式的载体可以是硬件(如 Amazon Echo 智能音箱),也可以是软件(如蚂蚁阿福 App)——关键不在于形态,而在于"意图理解+API 调度"的架构模式。其本质是"去中介化"——不是去除所有中间环节,而是绕过超级 App 的界面层,建立基于意图的新供应链,让 AI 成为用户与服务商之间的直接桥梁。
这与豆包模式有着本质的区别——正是前文提到的"共生式连接"。豆包通过模拟点击"寄生"在 App 之上,实际上是在劫持 App 的流量,破坏了 App 的交互逻辑,因此必然招致封杀。而 API 连接器模式是"共生"的。对于服务商而言,AI 入口是一个新的流量渠道,能带来增量订单。只要能带来真实的交易,服务商不仅不会抵制,反而会主动适配。Amazon Echo 在美国的成功已经验证了这一点——它通过 Alexa Skills 连接了数以万计的服务商,成为智能家居控制、购物、信息查询的统一入口。
蚂蚁阿福则是这一模式在中国健康医疗领域的典型验证者。这款由蚂蚁集团推出的 AI 健康应用,月活用户已超 1500 万,每天回答超过 500 万个健康咨询。蚂蚁阿福通过对话式 AI 入口,连接了多方服务的 API。这种架构让用户无需在十几个 App 之间切换,未来可以实现一次对话即可完成从咨询到购药到预约的全流程——这才是真正的"发射后不管",用户只需说出意图,AI 自行调度后台资源完成履约。
更多应用场景:除了健康医疗,这种"对话入口+API 调度"的模式同样适用于其他需要跨多个服务商协调的复杂场景。
AI 旅行规划器。出国旅行的规划是一个极其繁琐的过程,用户需要在携程、Booking、签证中心、航司官网、Google Maps 等十几个平台间反复切换。在 API 连接器模式下,用户只需输入"3 万预算、10 天日本关西游、偏好和风民宿",AI Agent 通过 API 直接查询各大航司的实时票价、Booking 的房源库存和当地景点的门票接口,自动组合出最优行程方案,用户确认后通过 API 一键完成支付。
再比如 B2B 领域的 AI 采购助手。企业采购员通常需要在多个供应商平台提交询价、对比报价。AI 采购助手允许采购员用自然语言描述需求,系统自动调用供应商联盟的 ERP 接口发起询价,收集反馈并生成对比表格。这将原本需要人工登录多个网站操作的流程,转化为 AI 后台的自动 API 调度,大幅提升了供应链响应速度。
还有 AI 装修管家。家装涉及设计师、建材商、施工队的协调。AI 装修管家通过对接装修公司的项目管理系统和建材商的库存 API,实现了全流程的自动化统筹。当业主确认"水电改造完成",系统自动触发 API 通知泥瓦工进场,并向建材商发送瓷砖发货指令。它将装修协调的时间成本降低了 70%,有效避免了工期延误。
实施路径与利益重构:实施可分三阶段推进。首先是"垂直切入",主攻低频、高客单价、高决策复杂度的增量市场,如跨国定制游、家庭装修协调、法律税务咨询,避开巨头垄断的红海。其次是"建立联盟",与行业头部的非垄断服务商建立深度合作,打造示范效应。最后是"标准确立",定义模型上下文协议(MCP),让服务商只需提供一份 API 文档,就能被 AI Agent 理解并调用。
这种模式的核心在于利益分配机制的重构。对中腰部服务商,AI 入口作为去中介化的新渠道,可大幅降低获客成本;对平台方,可通过交易分成、订阅或授权实现变现;对用户,无需在多个 App 之间切换,一次对话即可完成复杂任务。
*****
对豆包而言,它今天的困局源于战场选择:在高度竞争的领域,以第三方应用的定位,尝试重构现有生态的交互方式。这不是技术问题,而是模式问题。商业竞争的终局,往往不是技术参数的胜利,而是基于正确角色定位与商业模式重构的胜利。
豆包拥有国内领先的 AI 能力,这是毋庸置疑的硬实力。但硬实力需要在正确的战场上释放,才能转化为真正的竞争优势。三种模式——本地数据中枢、垂直场景专用硬件、API 服务连接器——提供了三条不同的道路。它们是否适合豆包,豆包是否会选择其中某条路,都是未知数。
换一个战场,而非放弃战争。
撰 文:
王子阳 清华大学经济管理学院商业模式创新中心研究主管、西安交通大学物流融合创新发展研究中心副研究员
朱武祥 清华大学经济管理学院商业模式创新中心主任,清华经管金融系教授
张芃 清华大学工程物理系硕士生
本文来自微信公众号“中欧商业评论”,作者:王子阳,36氪经授权发布。