惊！你的屏幕与键盘正悄悄拖垮AI智商

AI原生界面，帮助Agent摘下烤箱手套弹钢琴。

AI原生界面，帮助Agent摘下烤箱手套弹钢琴。

想象这样一个凌晨：2031年，你的书房角落有一台设备仍在无声运转——编写程序、处理邮件、审核合同、分析即时数据、安排日程、撰写文档。此刻你正在熟睡，当清晨醒来时，它已完成当日的大部分工作，你只需作出关键决策。

这台设备没有屏幕，也没有键盘。你无法用熟悉的方式与它交互，因为它根本不是给你用的，它是给Agent用的。

这幅画面勾勒出一个人类“退居二线”的未来，隐藏在它背后的，是一个更尖锐的问题：当Agent数量即将超过人类，为什么它们还在使用为人类设计的工具？你可以想象一位钢琴家被要求戴着烤箱手套弹奏莫扎特——手指明明具备超凡的灵活性，却被一层厚厚的隔热棉隔绝了与琴键的真实接触。

全球权威IT研究与顾问机构Gartner给出的预测正将这个矛盾推向临界点：到2026年底，40%的企业应用将集成AI Agent，而2025年这一比例还不足5%。企业云存储巨头Box的首席执行官亚伦·莱维（Aaron Levie）在2026年4月一次访谈中更是直言，Agent将渗透进几乎所有有经济价值的任务——审查每一份合同、承接大多数客服前线工作、审计每家公司的财务、生成几乎所有将被写出的代码。

当Agent的数量超过人类，它们理应拥有属于自己的“工位”，而不是挤在为我们设计的桌椅上勉为其难。

一场为Agent量身打造的交互界面革命，已经悄然启幕。

01

从硬件看，OpenClaw在全球技术圈引爆“龙虾”热后，深圳一家初创公司迅速推出了一款巴掌大小的硬件Violoop。2026年3月，这款产品在一个月内即完成数千万元种子及天使轮融资。用户使用时，只需用HDMI与Type-C线分别连接电脑和设备，它自带芯片与独立算力，通电后自主运行任务，不占用主机CPU与内存。它让AI能在本地持续运行、看屏幕、调用鼠标键盘操作，并自动处理文件、邮件、日程等任务。

这是一种“外接方案”——给普通电脑加一个专用外设，让它变身AI电脑。更激进的玩家选择彻底独立。深圳创业公司吾云创新（Zettlab）即将推出的Agent Computer没有屏幕、键盘、鼠标这“三件套”，可以24小时运行，内置专用AI芯片与本地模型，开箱就能让“龙虾”自主运行。它能够理解、调用、编排个人数据，且这些数据都沉淀在硬件里，做到了隐私隔离。

传统硬件大厂也已入局。联想在2026年3月发布了YOGA AI Mini和Think AI Tiny两款AI原生智能终端，同样砍掉“三件套”，搭载自研的AI原生操作系统DingOS。它采用自然语言交互界面（Native UI），支持多模态指令理解，无需手动配置即可实现AI工作流的自动化部署。

2025年初曾出现过DeepSeek一体机热潮，但这次完全不同。一体机本质是集软硬件于一体的“盒子”，软件栈基本是“Linux+大模型服务+前端界面”，模型仅作为服务被调用。它安静等待用户发送指令，然后给出回答——人依然是所有行为的发起者，也是功能回路的中心。而Agent Computer的跃迁在于：从“面向人类的图形界面”走向“面向代理的多模态执行环境”。

一个是让人更高效地指挥AI，一个是让AI自主地完成任务。两者看似相近，实则是两个时代的分水岭。

在GTC 2026大会上，黄仁勋将OpenClaw比作Linux，把AI Agent生态称为35万亿美元的市场。他更断言：“今天，世界上的每家公司都需要有一个智能体系统战略，这是新的计算机。”

02

之前我们探讨过AI原生一代用户（《AI原住民：镜像世界中诞生的认知新物种》），以及AI原生组织（《流量祛魅，词元为王，未来只有两种公司》）。这是AI原生系列第三篇——AI原生界面。将硬件与软件统一到交互界面的范畴来审视，一个清晰的脉络浮出水面：过去60年，人机交互的设计始终以“降低人类认知负担”为核心目标。从命令行到图形界面（GUI），从旋钮到触屏，每一次演进都在降低人类使用设备的门槛。

然而，这个延续60年的设计哲学，正在遭遇前所未有的挑战。

随着AI Agent的快速发展，未来的软件和硬件将同时服务于两类“用户”：人类与AI Agent。这不是对人类友好型架构的替代，而是对其扩展与升维——“双模态”交互范式将成为主流。

要理解这场变革的深度，需要先看清当下GUI的本质。

今天的人机交互界面具有四个鲜明特征：第一，它是可视化的，窗口、图标、按钮、菜单，所见即所得；第二，它是可直接操作的，点击、拖拽、滑动即可完成任务；第三，它遵循即时反馈原则，视觉、听觉、触觉随时响应；第四，它大量使用隐喻设计——桌面、文件夹、回收站等名称，都是借用人类在物理世界已有的心智模型。

为了降低认知负担，交互界面必然会“迁就”人类的认知模式：“文件夹”掩盖了文件系统的实际结构，“拖拽”操作隐藏了底层的数据移动逻辑，图形化配置界面将复杂的参数简化为开关和滑块。

这种“迁就”是有代价的。正如真格基金投资总监钟天杰在一篇引发广泛讨论的文章中所言，GUI（图形用户界面）的存在本质上是人类认知缺陷的一个“补丁”——人类的注意力带宽极窄，工作记忆极浅，需要持续的视觉锚点才能维持任务状态。（《我们也许不该再投资GUI思维的软件公司》，文｜真格基金投资总监钟天杰）

这个“补丁”对人类体贴入微，对AI Agent却充满敌意。

Agent今天面对的正是这样的困境：它需要通过“拖拽文件到文件夹”这一连串视觉动作，才能完成本质上只是“将文件路径从A修改为B”的简单操作。每一层界面隐喻，都是一道语义翻译的关卡；每一次鼠标点击，都是一次不必要的身份伪装。

我们常用精美、简洁、流畅等词来形容交互界面，这些标准全部建立在人类认知局限性之上。一旦用户不是人类，所有优势瞬间归零。GUI对AI Agent而言，就像一扇只能推开一半的门——一个拥有广阔视野的存在，被强迫透过门缝窥视整个房间。翻译是人类的长项，却是AI的枷锁，当它被迫以人类的方式行事时，每一步都在自我束缚。

03

人类有视觉、有双手、有持续感知能力，大语言模型却没有。它无法通过颜色和布局来理解界面，无法通过鼠标点击来触发操作，也无法通过动画来感知状态变化。每一次交互，Agent都需要付出高昂的视觉理解成本——通过屏幕截图、目标检测、OCR识别、语义理解等一系列复杂步骤，才能“看懂”一个对人类来说一目了然的界面。

效率差距触目惊心。2024年10月，Anthropic在Claude 3.5 Sonnet中首次引入“Computer Use”功能，通过API接口让AI能够像人类一样查看屏幕、移动光标、点击按钮。这项被官方称为“突破性”的技术，在OSWorld基准测试中仅取得14.9%的成功率。虽然远超此前AI的表现，但依然远低于人类70%~75%的水平。

这不是AI不够聪明，而是界面本身不是为它设计的。

到2025年1月，OpenAI推出的Operator及其核心模型CUA（Computer-Using Agent）将技术水准提升到新高度。与Claude依赖API调用的方式不同，CUA融合GPT-4o视觉能力与强化学习技术，直接与GUI交互。在WebVoyager基准测试中，任务成功率达到87%，几乎追平人类表现；OSWorld测试38.1%的成绩更是将此前的技术天花板推高了近一倍。

但这依然是在让AI“伪装”成人类——通过计算机视觉解析屏幕、模拟鼠标点击和键盘输入。给马车装上喷气发动机，它或许能跑得更快，但终究不是飞机。这是务实的过渡方案，而非终局。

真正的终局，是重新设计交互的底层逻辑。

04

从2024年底开始，围绕AI Agent的一系列开放协议密集出现。它们的共同目标很明确：为不断“生长”的Agent生态建立一套可通用、可协作的语言与标准。2025年12月，Google开源了A2UI（Agent to UI）协议，提出了一个新思路——让AI Agent学会“说UI的语言”。通过一种安全、声明式的格式，将UI需求发送给前端应用，用来渲染与交互，这是在定义Agent描述用户界面的全新标准。

未来的交互界面，无需再模拟鼠标或键盘的操作。一个更大胆的预言来自Nothing首席执行官裴宇（Carl Pei），他认为智能手机App将逐渐消失，取而代之的是更具主动性、更智能的AI Agent。未来的愿景是“Intent-based UI”——系统不再显示成排的图标，而是直接根据用户自然语言意图生成交互界面。

对着手机说句话就能订咖啡、买机票，这都是最初级的阶段。下一阶段，Agent将成为主动的生活助手，而非被动的工具。而到了最强大的阶段，系统甚至会浮现你从未想过要提的需求——它会提出连我们自己都没意识到的想要的东西。

这意味着界面本身必须发生根本性的变化。裴宇认为，人工智能代理不应该像机器人一样在菜单上点击，假装成人类。更专业的描述是：每个功能都提供完善的API接口，Agent可以直接调用而无需通过界面理解；所有信息都以机器可解析的格式提供，而非仅渲染为可视化界面。

这个转变的本质，是从“视觉中介”到“语义直达”。

想象一家餐厅：传统GUI让人类顾客只能通过菜单点菜，菜单经过精心设计、排版美观，但始终是一个间接的翻译层。而API则是让顾客直接进入后厨，精确告知厨师每一道菜的配料、火候和摆盘要求——没有中间商，没有信息损耗。Agent需要的正是这种“直达后厨”的能力，而不是在精美的菜单封面上消磨时间。这种转变不是锦上添花，而是当Agent数量爆发式增长后的必然选择。

当然，向Agent友好型界面的转变并不缺少挑战。最直接的挑战来自安全与隐私——当Agent获得系统级操作权限时，如何验证其身份、分配合理的权限、追溯其行为责任，都是亟待解决的核心问题——如果Agent可以同时访问你的银行账户、医疗记录和工作邮件，那么一道安全漏洞的代价将远超传统的数据泄露。

尽管未来隐藏着不安，但我们无法拒绝它降临。五年之内，软件和硬件的交互都需要同时服务于两类用户：一类是有视觉、有双手、需要视觉锚点的人类；另一类是没有视觉、没有双手，但拥有超强推理和规划能力的AI Agent。

这不再是“人机交互”的问题，而是“人—Agent—机”三方共存的复杂生态系统设计问题。

从“人适应机器”到“机器适应人”，再到“机器适应Agent”——人机交互的历史，正在翻开最具想象力，也最不可预测的一页。

本文来自微信公众号“中国企业家杂志”（ID：iceo-com-cn），作者：何伊凡，编辑：钟云华，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

你的屏幕和键盘，正在拖垮AI的智商

01

02

03

04