Endlich ist es da, der Agent von OpenAI, aber diesmal gab es nicht viele Applaus.
我们终于等到了 OpenAI 的智能体(Agent)了。
今天凌晨,Sam Altman 亲自带队发布了 ChatGPT 的通用型 Agent 模式。
比起当年 ChatGPT 带给所有人的震撼,姗姗来迟的 OpenAI Agent 少了很多惊喜,因为早在年初我们就见到了类似的产品形态——当时“一号难求”的 Manus,以及 Minimax、Kimi 等陆续发布的相似产品。
“起大早,赶晚集”,技术强大如 OpenAI,也难免有卷不过的时候。
OpenAI 的 Agent,您终于来了
这年头发布 AI 产品,“惊喜”和强大往往是两回事——毕竟是 Open AI。
在产品的直播演示里,这款 Agent 展示出的能力还是令人期待的——Agent 模式可以自己访问网页、调用终端、自动下单,执行从旅行规划、PPT 制作到图像生成与在线购物的整套流程。
据介绍,ChatGPT Agent 即日起向 Pro、Plus 和 Team 版用户开放,Enterprise 和 Education 版用户将于 7 月获得使用权限。Pro 版用户每月 400 次,Plus 和 Team 用户每月 40 次。
为了实现从“Chat”到“Agent”的表现,OpenAI 结合了 Operator(视觉层交互代理)和 Deep Research(多步骤网页推理)两项核心研究成果,一个是“手脚”一个是“大脑”来共同完成任务的拆解、思考、行动的闭环。
这需要三大模块工具的支持:1。 文本浏览器 (Text-based Browser)来处理密集型网页阅读任务,提取信息;2. 可视化浏览器 (Text-based Browser),实现在图形界面中操作鼠标点击、输入、截图等;3. 终端工具 (Terminal),来运行代码、生成文件、调用 API、与其他系统集成。
据 OpenAI 介绍,这款 Agent 不仅能执行,还能评估执行效果,并在每一步中动态选择最优路径。而用户可以随时插话调整指令,或临时接管任务进程。
其实拆解任务和优化任务一直是 Agent 的一个难点。我们可以把 Agent 想象成一个小团队,有产品、品牌、数据,现在用户作为老板下达了一个指令:给我设计一款年轻人喜欢的手机壳。然后大家开始分头行头,市场做调研、品牌做推广,数据盯反馈。
不过这个过程中,大家不免会有冲突,有逾矩,比如市场调研市场可以去发调查问卷,数据部也可以看大数据报告,到底谁来做最高效?所以好的 Agent 总是能自我优化,追求最快、最好。
Agent 这么火?它和 Chatbot 有啥区别?
ChatGPT Agent 和 ChatGPT 到底有什么区别?
基本的解释是:Agent 可以完成任务,Chatbot 可以完成对话。这个“任务”和“对话”到底有什么分别?
举个很简单的例子,我现在要决定今天中午吃什么,我可能会考虑类型、距离、口味,并在最后定一家外卖下单,这就是一个 Agent 式的任务;而一个 Chat 式的任务是,当我已经决定吃日料,我来问:最短距离哪家日料评分最高。
说白了 Agent 能完成的任务,更复杂、更高维、需要更多的工具。
比如,在 OpenAI 的演示里,操作员让 OpenAI Agent 挑一套适合参加婚礼的礼服和礼物。Agent 先用文本浏览器打开用户给的网页信息确认婚礼的日期、天气、位置,然后用可视化浏览器展示可选的礼服效果,之后再继续搜索礼物……
另一个操作员交代的任务是给团队一只叫 Bernie 的狗狗,也是团队吉祥物做一批笔记本贴纸,并且订购 500 份邮寄到相应的地址。
Agent 先是用终端工具 Imagen 生成动漫版图片,设计贴纸然后再访问 Sticker Mule 网站,把设计好的图上传到网站,填写了贴纸数量、尺寸等等,选择订购 500 分,任务最终停留在请求信用卡信息上。
做 PPT,也是一个很典型的 Agent 式任务。
OpenAI 团队演示了让 Agent 从 Google 云中提取分析评估数据并制作成 PPT,直接用图表展示结果。Agent 链接 Google 云 API 进行搜索,并读取相关内容信息,然后使用图像生成功能,在生成一次 PPT 后,Agent 进行了一次优化,生成了一张视觉上更流畅的 PPT。
咋就迟到了?
奥特曼想做 Agent 不是一天两天了。
其实 OpenAI 早就公布过自己的“五级路线图”,一级 Chatbots(聊天机器人)、二级 Reasoners(推理者)、三级 Agents(代理)、四级 Innovators(创新者)、五级 Orgnazations(组织者)。
Agents 作为第三级是整个 AI 进化路径中,让 AI 从工具属性跃升到创新属性中必经的一环。
只不过奥特曼不是第一个发出 Agent 产品的。
今年 3 月, Manus 推出通用 Agent 产品,当时一夜之间大家全都在“万能的朋友圈”求测试账号,一个账号甚至最高炒到了一百万。
Manus 借势 Agent 东风更快速推出产品的很大一部分原因是他们没有自研大模型,而是用 Claude 等底层基础大模型来实现产品功能 ,并将各类功能组合封装,当时业内也称 Manus 是一款“套壳”产品。
Manus 之外,MiniMax、Kimi、Perplexity AI 都更先发布了通用 Agent 形态的产品。
所以说,OpenAI 这把推出 Agent 其实是缺乏了先发优势的,从 ChatGPT 到 Agent,OpenAI 在行业中的位置也从“抢先跑”到了“赶班车”。
除了时间压力,OpenAI 还不能忽视两方面的竞争压力——生态竞争、成本竞争。
一直以来重闭源的 OpenAI 在今年接连受到来自各类竞品的打击。比如 Deepseek,训练成本是自己的二十分之一,性能表现却跟自己产品差不多,本来靠闭源 API 商业化做到全球第一的 OpenAI 眼看着英伟达、英特尔、亚马逊、微软、AMD 等等科技大厂全部接入 DeepSeek,这让奥特曼都直接公开反思“闭源策略可能是个失误”。
成本优势势必会带来生态优势,这样的商业规律并不会在 AI 市场上失效。
而即使 OpenAI 在产品上保持优势,那些“差不多,但便宜很多”的竞争对手的集体围剿也会让他体会“被瓜分”的痛——这一点,奥特曼可以和一直阴阳他的马斯克谈谈心。
关于 Agent 的想象力,才刚刚开头
要我说,人类对 Agent 的开发不足 1%。
Agent 的出现和成熟可以完全颠覆一代人。就像互联网的出现对 90 后的影响,AI 的出现将会影响整个阿尔法世代。
从商业化的角度来看,目前大家对 Agent 最多的讨论就是场景化的难度。因为达到了可以“行动”的 Agent 势必涉及到跨应用的调用,比如在上述贴纸订购的演示里,网购平台的调用权限就必不可少。
但在我看来,这就像当时我们无法想象淘宝怎么说服店家上线一样,AI 时代应用的互通只是时间问题。
作为在这种大势之下的用户,我们其实更应该思考的是 Agent 对我们,以及后代在生活方式的转变——
设想一下,七八岁的孩子们从校门涌出,下午四点父母们还在工作,门口接孩子们的不是爷爷奶奶,也是接入了 Agent 的机器人,Agent 是妈妈们训练出来的,到了家,Agent 早就打开了空调,房间的温度正好。等到快要七点的时候,Agent 开始指挥炒菜机器人做饭,等着下班的爸爸妈妈。
再设想一下,一个对星座塔罗感兴趣的上班族想要搞个占星副业,Agent 直接搜集各种语言的占星资料翻译成中文,提取摘要做成报告,顺便指定一份学习计划。然后开始搜集文案引流灵感、做成海报发布在社交账号帮忙揽客。
再看 OpenAI 的“五级路线图”,Agent 不仅是 AI 从思考到行动的拐点,更是 AI 从被动到主动的拐点,当 AI 从工具化逐渐拟人化,人类的命运也将彻底改写。
内文插图均来自 OpenAI
封面图来源:Unsplash
本文来自微信公众号 “果壳”(ID:Guokr42),作者:沙拉酱,36氪经授权发布。