首页文章详情

你的屏幕和键盘,正在拖垮AI的智商

中国企业家杂志2026-05-20 09:02
AI原生界面,帮助Agent摘下烤箱手套弹钢琴。

AI原生界面,帮助Agent摘下烤箱手套弹钢琴。

想象这样一个凌晨:2031年,你的书房角落有一台设备仍在无声运转——编写程序、处理邮件、审核合同、分析即时数据、安排日程、撰写文档。此刻你正在熟睡,当清晨醒来时,它已完成当日的大部分工作,你只需作出关键决策。

这台设备没有屏幕,也没有键盘。你无法用熟悉的方式与它交互,因为它根本不是给你用的,它是给Agent用的。

这幅画面勾勒出一个人类“退居二线”的未来,隐藏在它背后的,是一个更尖锐的问题:当Agent数量即将超过人类,为什么它们还在使用为人类设计的工具?你可以想象一位钢琴家被要求戴着烤箱手套弹奏莫扎特——手指明明具备超凡的灵活性,却被一层厚厚的隔热棉隔绝了与琴键的真实接触。

全球权威IT研究与顾问机构Gartner给出的预测正将这个矛盾推向临界点:到2026年底,40%的企业应用将集成AI Agent,而2025年这一比例还不足5%。企业云存储巨头Box的首席执行官亚伦·莱维(Aaron Levie)在2026年4月一次访谈中更是直言,Agent将渗透进几乎所有有经济价值的任务——审查每一份合同、承接大多数客服前线工作、审计每家公司的财务、生成几乎所有将被写出的代码。

当Agent的数量超过人类,它们理应拥有属于自己的“工位”,而不是挤在为我们设计的桌椅上勉为其难。

一场为Agent量身打造的交互界面革命,已经悄然启幕。

01

从硬件看,OpenClaw在全球技术圈引爆“龙虾”热后,深圳一家初创公司迅速推出了一款巴掌大小的硬件Violoop。2026年3月,这款产品在一个月内即完成数千万元种子及天使轮融资。用户使用时,只需用HDMI与Type-C线分别连接电脑和设备,它自带芯片与独立算力,通电后自主运行任务,不占用主机CPU与内存。它让AI能在本地持续运行、看屏幕、调用鼠标键盘操作,并自动处理文件、邮件、日程等任务。

这是一种“外接方案”——给普通电脑加一个专用外设,让它变身AI电脑。更激进的玩家选择彻底独立。深圳创业公司吾云创新(Zettlab)即将推出的Agent Computer没有屏幕、键盘、鼠标这“三件套”,可以24小时运行,内置专用AI芯片与本地模型,开箱就能让“龙虾”自主运行。它能够理解、调用、编排个人数据,且这些数据都沉淀在硬件里,做到了隐私隔离。

传统硬件大厂也已入局。联想在2026年3月发布了YOGA AI Mini和Think AI Tiny两款AI原生智能终端,同样砍掉“三件套”,搭载自研的AI原生操作系统DingOS。它采用自然语言交互界面(Native UI),支持多模态指令理解,无需手动配置即可实现AI工作流的自动化部署。

2025年初曾出现过DeepSeek一体机热潮,但这次完全不同。一体机本质是集软硬件于一体的“盒子”,软件栈基本是“Linux+大模型服务+前端界面”,模型仅作为服务被调用。它安静等待用户发送指令,然后给出回答——人依然是所有行为的发起者,也是功能回路的中心。而Agent Computer的跃迁在于:从“面向人类的图形界面”走向“面向代理的多模态执行环境”。

一个是让人更高效地指挥AI,一个是让AI自主地完成任务。两者看似相近,实则是两个时代的分水岭。

在GTC 2026大会上,黄仁勋将OpenClaw比作Linux,把AI Agent生态称为35万亿美元的市场。他更断言:“今天,世界上的每家公司都需要有一个智能体系统战略,这是新的计算机。”

02

之前我们探讨过AI原生一代用户(《AI原住民:镜像世界中诞生的认知新物种》),以及AI原生组织(《流量祛魅,词元为王,未来只有两种公司》)。这是AI原生系列第三篇——AI原生界面。将硬件与软件统一到交互界面的范畴来审视,一个清晰的脉络浮出水面:过去60年,人机交互的设计始终以“降低人类认知负担”为核心目标。从命令行到图形界面(GUI),从旋钮到触屏,每一次演进都在降低人类使用设备的门槛。

然而,这个延续60年的设计哲学,正在遭遇前所未有的挑战。

随着AI Agent的快速发展,未来的软件和硬件将同时服务于两类“用户”:人类与AI Agent。这不是对人类友好型架构的替代,而是对其扩展与升维——“双模态”交互范式将成为主流。

要理解这场变革的深度,需要先看清当下GUI的本质。

今天的人机交互界面具有四个鲜明特征:第一,它是可视化的,窗口、图标、按钮、菜单,所见即所得;第二,它是可直接操作的,点击、拖拽、滑动即可完成任务;第三,它遵循即时反馈原则,视觉、听觉、触觉随时响应;第四,它大量使用隐喻设计——桌面、文件夹、回收站等名称,都是借用人类在物理世界已有的心智模型。

为了降低认知负担,交互界面必然会“迁就”人类的认知模式:“文件夹”掩盖了文件系统的实际结构,“拖拽”操作隐藏了底层的数据移动逻辑,图形化配置界面将复杂的参数简化为开关和滑块。

这种“迁就”是有代价的。正如真格基金投资总监钟天杰在一篇引发广泛讨论的文章中所言,GUI(图形用户界面)的存在本质上是人类认知缺陷的一个“补丁”——人类的注意力带宽极窄,工作记忆极浅,需要持续的视觉锚点才能维持任务状态。(《我们也许不该再投资GUI思维的软件公司》,文|真格基金投资总监钟天杰)

这个“补丁”对人类体贴入微,对AI Agent却充满敌意。

Agent今天面对的正是这样的困境:它需要通过“拖拽文件到文件夹”这一连串视觉动作,才能完成本质上只是“将文件路径从A修改为B”的简单操作。每一层界面隐喻,都是一道语义翻译的关卡;每一次鼠标点击,都是一次不必要的身份伪装。

我们常用精美、简洁、流畅等词来形容交互界面,这些标准全部建立在人类认知局限性之上。一旦用户不是人类,所有优势瞬间归零。GUI对AI Agent而言,就像一扇只能推开一半的门——一个拥有广阔视野的存在,被强迫透过门缝窥视整个房间。翻译是人类的长项,却是AI的枷锁,当它被迫以人类的方式行事时,每一步都在自我束缚。

03

人类有视觉、有双手、有持续感知能力,大语言模型却没有。它无法通过颜色和布局来理解界面,无法通过鼠标点击来触发操作,也无法通过动画来感知状态变化。每一次交互,Agent都需要付出高昂的视觉理解成本——通过屏幕截图、目标检测、OCR识别、语义理解等一系列复杂步骤,才能“看懂”一个对人类来说一目了然的界面。

效率差距触目惊心。2024年10月,Anthropic在Claude 3.5 Sonnet中首次引入“Computer Use”功能,通过API接口让AI能够像人类一样查看屏幕、移动光标、点击按钮。这项被官方称为“突破性”的技术,在OSWorld基准测试中仅取得14.9%的成功率。虽然远超此前AI的表现,但依然远低于人类70%~75%的水平。

这不是AI不够聪明,而是界面本身不是为它设计的。

到2025年1月,OpenAI推出的Operator及其核心模型CUA(Computer-Using Agent)将技术水准提升到新高度。与Claude依赖API调用的方式不同,CUA融合GPT-4o视觉能力与强化学习技术,直接与GUI交互。在WebVoyager基准测试中,任务成功率达到87%,几乎追平人类表现;OSWorld测试38.1%的成绩更是将此前的技术天花板推高了近一倍。

但这依然是在让AI“伪装”成人类——通过计算机视觉解析屏幕、模拟鼠标点击和键盘输入。给马车装上喷气发动机,它或许能跑得更快,但终究不是飞机。这是务实的过渡方案,而非终局。

真正的终局,是重新设计交互的底层逻辑。

04

从2024年底开始,围绕AI Agent的一系列开放协议密集出现。它们的共同目标很明确:为不断“生长”的Agent生态建立一套可通用、可协作的语言与标准。2025年12月,Google开源了A2UI(Agent to UI)协议,提出了一个新思路——让AI Agent学会“说UI的语言”。通过一种安全、声明式的格式,将UI需求发送给前端应用,用来渲染与交互,这是在定义Agent描述用户界面的全新标准。

未来的交互界面,无需再模拟鼠标或键盘的操作。一个更大胆的预言来自Nothing首席执行官裴宇(Carl Pei),他认为智能手机App将逐渐消失,取而代之的是更具主动性、更智能的AI Agent。未来的愿景是“Intent-based UI”——系统不再显示成排的图标,而是直接根据用户自然语言意图生成交互界面。

对着手机说句话就能订咖啡、买机票,这都是最初级的阶段。下一阶段,Agent将成为主动的生活助手,而非被动的工具。而到了最强大的阶段,系统甚至会浮现你从未想过要提的需求——它会提出连我们自己都没意识到的想要的东西。

这意味着界面本身必须发生根本性的变化。裴宇认为,人工智能代理不应该像机器人一样在菜单上点击,假装成人类。更专业的描述是:每个功能都提供完善的API接口,Agent可以直接调用而无需通过界面理解;所有信息都以机器可解析的格式提供,而非仅渲染为可视化界面。

这个转变的本质,是从“视觉中介”到“语义直达”。

想象一家餐厅:传统GUI让人类顾客只能通过菜单点菜,菜单经过精心设计、排版美观,但始终是一个间接的翻译层。而API则是让顾客直接进入后厨,精确告知厨师每一道菜的配料、火候和摆盘要求——没有中间商,没有信息损耗。Agent需要的正是这种“直达后厨”的能力,而不是在精美的菜单封面上消磨时间。这种转变不是锦上添花,而是当Agent数量爆发式增长后的必然选择。

当然,向Agent友好型界面的转变并不缺少挑战。最直接的挑战来自安全与隐私——当Agent获得系统级操作权限时,如何验证其身份、分配合理的权限、追溯其行为责任,都是亟待解决的核心问题——如果Agent可以同时访问你的银行账户、医疗记录和工作邮件,那么一道安全漏洞的代价将远超传统的数据泄露。

尽管未来隐藏着不安,但我们无法拒绝它降临。五年之内,软件和硬件的交互都需要同时服务于两类用户:一类是有视觉、有双手、需要视觉锚点的人类;另一类是没有视觉、没有双手,但拥有超强推理和规划能力的AI Agent。

这不再是“人机交互”的问题,而是“人—Agent—机”三方共存的复杂生态系统设计问题。

从“人适应机器”到“机器适应人”,再到“机器适应Agent”——人机交互的历史,正在翻开最具想象力,也最不可预测的一页。

本文来自微信公众号“中国企业家杂志”(ID:iceo-com-cn),作者:何伊凡,编辑:钟云华,36氪经授权发布。