揭秘Codex与ChatGPT合体原因！OpenAI核心leader回应Codex未来走向

Codex 桌面应用团队负责人 Andrew Ambrosino访谈

如果你问 2026 年哪个 AI 产品的增长最令人瞩目，那「Codex」肯定是排在第一位的。

自今年 1 月份以来，该产品的周活跃用户增长了 5 倍以上，增长曲线很陡。目前，它的周活跃用户规模已经达到 500 万。其中，知识工作者（非开发者）采用 Codex 的速度，是开发者群体的 3 倍以上。

值得注意的是，这些陡峭的增长曲线有个重要的催化剂 ——2 月份桌面 App 的发布。这个桌面版提供了专属、优化的使用界面，大幅降低了使用门槛，带来了 Codex 下载和采用量的爆发式增长。

而在这条陡峭增长曲线背后，推动产品形态发生变化的，是一个相对更少被公开讨论的角色 ——Codex 桌面应用团队负责人 Andrew Ambrosino。

作为直接负责 Codex 桌面端产品演进的人，他同时站在两个快速重叠的世界之间：一边是以「写代码」为核心的开发者工具链，另一边则是迅速扩张到几乎所有知识工作场景的通用 AI 工作入口。从产品发布节奏到用户行为变化，再到团队内部如何重新定义「设计」「工程」和「产品」的边界，他所看到的，往往比增长数据本身更接近这场变化的本质。

接下来这段访谈，正是从他的视角出发，去拆解 Codex 改变了什么、为何与 ChatGPT 合并，以及它未来的迭代方向是怎样的。

视频链接：https://www.youtube.com/watch?v=P3KDebPTUrw

我们对访谈的部分内容进行了整理，详细内容请参考原视频。

实现变便宜了，

那什么变贵了？

几年前，整个产品开发的逻辑是这样的：实现很贵。所以在动手写代码之前，你要做大量的事前去风险工作 —— 写文档、做研究、做原型，目的是让设计更便宜。正是因为实现本身成本高昂，你必须在前期就把一切梳理清楚。

但现在这个假设彻底反转了。在 OpenAI，情况变成了这样：给人们大量的 token，每个人都有很好的想法，所以每个人都在做东西。结果是，一个需要做的功能，可能有 90 个不同的团队在同时探索 90 种不同的实现方式。

这意味着实现不再是昂贵的部分。那什么变贵了呢？ Andrew 直言不讳：是品味。更具体地说，是策展的过程。当你面对这 90 个不同的尝试时，你需要有眼光去判断：哪些东西做得不错？这些应该如何折叠进其他功能里？这个东西应该怎么框架化？这个切换按钮应该有几个段位？这些决策本身，才是现在最贵、最需要思考的地方。

品味到底是什么？

「品味」这个词在硅谷被说烂了。但在 Andrew 这里，它有非常具体的含义。

有个有趣的段子是，Linear 的产品负责人曾说有人过度强调品味的美学部分，然后举 Paul Graham 为例 ——Paul Graham 明显品味很好，但他穿的是工装裤。这说明品味远不止外观。 Andrew 把品味的内涵列举出来：有美学层面，但那只是一部分；有系统思维的层面，即这个东西如何融入整个系统；有方向感的层面，这是什么主题的一部分；有呈现方式的层面。当然还有一些细节的层面，比如这个交互动画是否与它想表达的语义意思相符 —— 它是不是太快速了，不适合表达这个概念。

但真正的核心品味问题是这样的：如果我们能建造任何东西，那么我们想要什么？这是什么？我们如何到达那里？这些才是真正的品味问题。

它不仅是关于选择做什么。也是关于如何展现信息、如何实现目标、使用什么介质。品味是这个新时代里，人类大脑仍然最有价值的地方。

为什么 AI 至今还做不好设计？

这是个有趣的悖论：Codex 在写代码上已经非常强大，但当用它生成设计时，输出的质量往往平庸。很少能说「哇，它完全搞定了」。

Andrew 认为这背后有几层原因。首先是实际的原因。设计比软件更难评分，因为评价设计好坏的人类品味本身就是反馈机制的一部分。这让训练模型变得困难 —— 不像代码，你很难用客观标准（代码能编译吗？功能正常吗？）来衡量。其次，从研究投入的角度看，实验室历来投入最多资源去提升那些能加速 AI 研究本身的能力。在编码模型早期，显然能写正确的代码会加速研究。但设计能力好不好，对 AI 研究的加速作用不那么直接。

更深层的问题涉及设计工作本身的复杂性。设计中有一个文化层面 —— 什么算「好设计」是由文化决定的。去年所有新网站都在复制 Linear 的设计，那是真的好设计，有品味。但如果一个模型每次都输出 Linear 的样子，那就不是进步，而是失败。设计需要新颖性，而软件工程恰恰相反，你几乎总是希望代码跟随已知的模式。

最难解决的问题在于抽象层。当代码驱动视觉设计时，两者之间存在着深层的互动。比如，左上角的某个东西应该和下面某个地方在代码库中共享相同的抽象。这不仅仅是说模型需要成为更好的设计师，而是说模型需要理解这些更深的结构关系 —— 如果公司明天进行品牌重塑，浅层的做法是逐个更新 263 个组件，但深层的理解应该是：这两个看起来不同的东西在语义上是相同的，它们都是列表，都有相同的样式，都传达相同的交互模式。这种抽象层的理解，目前对 AI 来说仍然遥不可及。

为什么 Codex 不能提前发？

这是一个非常深刻的观察：产品的成功不仅取决于设计本身，还取决于模型能力的时机。

Andrew 非常确信，如果 Codex 应用在去年 11 月就推出，它会在市场上彻底失败。而如果在 2 月推出的同一个产品形状，却获得了巨大成功。唯一的变量是中间这几个月模型能力的进步。换句话说，产品的交互设计、用户界面、整个概念都没有变，但模型智能程度的提升，完全改变了结果。

这揭示了一个深刻的真相：在 AI 时代，产品是否好用、是否有价值，不是由 UI 设计或交互设计单独决定的，而是由「模型在这个时刻能做什么」决定的。同一个想法，用旧的模型实现可能毫无用处，但用新的模型就可能妙趣横生。

这也改变了产品规划的方式。 Andrew 在之前的公司看到过这个转变：不再是「我们计划全年做什么」，而是变成「我们相信模型在什么时间点能做什么，让我们列出所有感兴趣的东西，为它们全部做原型，然后决定哪些现在可以做，其他的先放着等待，等到模型有新的跨越时，再用升级后的模型尝试那些之前搁置的想法」。因为整个功能是否好用的前提，不是设计的形状，而是模型是否足够聪明。

工程师、设计师、PM 的边界消失了吗？

Lenny 提到，看 Andrew 的履历，工程师、设计师、产品经理、创业者他都做过，现在管着整个桌面 App，就问设计团队是不是也归他管。Andrew 笑说「看哪一周」—— 汇报关系一直在变，但团队一直是紧密坐在一起、彼此嵌入地工作。

Andrew 说，外界已经在讨论「角色坍缩」、说以后不会再分角色了，他们团队还没到那一步，但角色之间的重叠确实比公司其他部门、甚至整个行业都更明显 —— 一部分原因是 Codex 本来就是面向工程师的技术型产品，团队里的设计师能讲工程师的语言，产品经理也能写代码，比如另一位产品负责人 Alexander 就有计算机科学硕士学位，Andrew 自己反而没有。

他认为，现在更准确的说法是：一个人不再由「设计到哪结束、工程从哪开始」这样的边界定义，而是由他平均花时间在做什么来定义 —— 这也跟团队的工作方式有关，因为整个 App 是靠内部「吃自己的狗粮」跑出来的，大家都想尽量在 App 里把事情做完，哪怕它暂时还不是做这件事最好的工具，这样它才能慢慢变成最好的工具。两人也顺带聊起「member of technical staff」这个头衔的由来，Andrew 认为最早可能是施乐（Xerox）开始这么叫的，如今在研究驱动型公司里已经算一种传统。

Lenny 追问，这是不是意味着未来大家都会变成不分职能的「builder」，PM、设计、工程这些技能分类还会不会存在。Andrew 的态度很明确：他并不认同彻底取消角色划分。他见过不少公司喊出「取消产品岗位，人人都是 builder」，结果是产品这个专业积累多年的最佳实践、试错经验，就因为「我也能写代码」这种想法被当成没用的东西丢掉了。「这不是你的地盘」这种画地为牢式的边界感消失，他是欢迎的，但每个专业依然有自己的技能门槛 —— 不是谁用用 Excel，就能去财务部门顶班。

他也提到，现在换角色确实比以前容易了，因为能力不再和「是否精通某个具体工具」死死绑定：他自己就曾长期觉得不该做工程师，因为不喜欢钻研汇编语言、死记 TypeScript 语法，而这种「精通某个工具才算干得好」的门槛正在瓦解。不过他也提醒，这个趋势目前被外界过度夸大了。

当下最前沿的 AI 辅助开发方式

Lenny 把话题往回拉了一层：从纯人工写代码，到 AI 能写 100% 的代码，再到现在「写代码」变成了「引导 AI」—— 评估一个人写了多少代码，几乎变成了「你纠正 AI 方向纠正了几次」。他问，现在最前沿的做法是不是「loop」（自主循环开发）？那些走在最前面的 AI 团队，现在具体是怎么运作的？

Andrew 提到，一个本质的问题是，「多少代码是 AI 写的」这个问题本身已经不重要了，因为按去年的标准，现在几乎 100% 的代码都是 AI 写的；真正该问的是，这些代码是「有监督」写出来的，还是「无监督」写出来的，这是完全不同的两件事。他说自己乐见这种评判标准不断被刷新，因为这恰恰说明产品在往前走。团队做过不少「自主开发软件」方向的探索，也包括不少「harness engineering」相关的尝试，比如设想让模型在夜里自己跑一遍，把代码库做一次「垃圾回收」式的清理。

他也坦言，目前所有模型都有一个通病 —— 倾向于让代码越改越复杂。他半开玩笑地说，如果哪家公司的研究团队正好在听，希望能把模型「删代码」的能力练得更好一些。这也是把开发完全交给自动驾驶时会遇到的现实问题，人和代码库两头都是如此：怎么教模型判断该做哪些功能、该忽略哪些、哪些该合并重新归类；怎么教模型搭建正确的抽象结构。这些能力都在变好，但他认为目前还做不到「设一个 loop 让它自己去改进产品，同时盯着 Twitter、Slack、邮件」这种程度，不过团队一直在朝这个方向努力。

Lenny 追问，会不会有一天，团队干脆直接给 AI 设一个「赢」或者「给我赚一个亿」这样的终极目标就完事了。Andrew 笑着表示自己不敢把话说死，不会轻易断言「永远不会」或者「一定会」。

为什么非得把 Codex 和 ChatGPT 合并？

Codex 的未来将走向何方？

Codex 最早是命令行工具，后来才做成独立 App，最初定位很明确：一个「开发者工具」—— 不是 IDE，能看代码，但不让编辑代码。

App 正式对外发布前，团队先在 OpenAI 内部做了一轮试用（1-2 月）。工程和研究场景里反馈非常清晰、非常正面。但团队同时发现，市场、公关、财务、法务等几乎所有部门的人也在用这个 App—— 尽管它对这些人并不友好，界面里全是代码和命令行权限申请，根本不是为他们设计的体验。

团队一开始的应对，是把 Codex 的能力搬到别的产品界面里，比如 ChatGPT 桌面应用和 Atlas 浏览器，做成更通用的知识工作工具。但结果是没人愿意离开 Codex App 去用那些「专门」打造的 App。这让团队意识到：开发者工具和通用知识工具之间的边界正在坍塌，Codex 和 ChatGPT 更像是同一个能力的不同入口，而不是两类独立产品。

团队的结论是：这套产品该做成一个足够通用、可扩展的底层，能同时承接财务、法务、科学等深度场景。真正的挑战只在于「怎么让它足够通用」—— 这也是团队对「Codex 到底是开发者工具，还是干脆就是 ChatGPT」这个问题的回答。

主持人 Lenny 由此点出：Codex 已经做得比 ChatGPT App 本身更好用、更好玩，用户都跑去用它了，所以合并是必然方向，能避免认知混乱。

Andrew 笑着回应说，有人把这个方向叫做「超级应用」（super app），他挺后悔当初有人说出这个词，因为从那以后，他每天都要被这个说法包围。

Lenny 追问：先不叫它「超级应用」，但核心思路是不是「用户到一个地方，就能把所有事情都做完」？还是说，这件事目前还没有定论？

Andrew 给出的回答，是「home base」（大本营）这个概念：这应该是一个很好的「主场」，一个可以让用户追踪自己在不同产品界面上、所有待办事项的地方。有些事情，用户可以完全在 App 内部完成；另一些事情，App 则负责去调用、打开别的应用来完成 —— 比如，App 可以连接 Excel，App 内部确实也内置了一个电子表格编辑器，但对于要在 OpenAI 做几十亿美元规模融资、需要做复杂财务建模的人来说，这个内置编辑器可能还远远不够。所以 App 会直接和用户电脑桌面上的 Microsoft Excel 插件对话，等事情做完，用户可以直接把 Excel 关掉。

也就是说，这件事从来都不是「我们在屏幕上画一个方框，所有事情都必须发生在这个方框里」，而是 —— 这个东西应该成为用户的一个「家」：你在这里开始工作、结束工作、把工作自动化，需要用到什么工具，它就去调用什么工具。

为了说明这一点，Andrew 讲了一个具体的故事。Codex App 最初发布的时候，团队拍了一批宣传视频，剪辑这些视频的活儿落在了内部的摄影师身上。结果，摄影师全程用 Codex 剪完了这些视频 —— 这是团队第一次真正意识到「天哪，大家居然在用这东西做这种事」的瞬间之一。

摄影师会想到用 Codex 剪视频，纯粹是出于好奇，就是想看看 Codex 到底能不能干这件事。Codex 本身完全不是一个视频编辑器，界面里也没有任何剪辑相关的 UI，但它能理解摄影师用的是 Premiere Pro，并且能通过直接编辑 Premiere Pro 背后、支撑屏幕显示内容的工程文件，完成一部分剪辑操作 —— 只是这样还不能覆盖所有需求。于是，Codex 接下来做的事，是给自己写了一个可以装进 Premiere Pro 里的扩展插件，然后通过这个插件和 Premiere Pro「对话」——「嘿，Premiere Pro 扩展，能不能帮我把这个标记点改一下。」团队第一次看到这个过程真实发生的时候，都觉得这事儿太不可思议了。

由此，Andrew 总结出了一个模型：这个世界上已经存在大量在各自领域里做到极致的专业工具，Codex—— 现在要加上 ChatGPT—— 想要同时做两件事。

第一件事，是如何和用户已经在用的这些工具无缝协作：团队不需要重新造一个更好的视频编辑器，而是让 Codex 和 ChatGPT 学会使用现成的工具 —— 能和它交互、把任务交接给它，这通常是通过 connectors（连接器）、computer use（电脑操作能力），或者像 Premiere Pro 这个案例一样，通过扩展插件来实现。

第二件事，则是 Dan Shipper 提到过的那种设想：用户手里已经有一堆可以点来点去使用的网页应用，但希望能把这些应用在 Codex 里直接打开，让 Codex 在里面替他们多做一些事情。这两种模式，几乎互为镜像，团队目前正在同时大力推进这两条线。

本文来自微信公众号 “机器之心”（ID：almosthuman2014），作者：机器之心，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Codex、ChatGPT为何合体？Codex未来何去何从？OpenAI核心leader回应一切