刚刚！ChatGPT与Claude同步大更新，不会“指挥”AI的打工人将被淘汰

火星撞地球。

就在刚刚，硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像约好了一样，同时甩出了自家的重磅更新：Claude Opus 4.6 和 GPT-5.3-Codex。

如果说昨晚之前，我们还在讨论怎么写好 Prompt 辅助工作；那么今天过后，我们可能需要学会如何作为老板去管理 AI 员工。

AI 造 AI，顺便接管你的电脑

就在昨天，Sam Altman 刚在 X 平台上凡尔赛了一把 Codex 的「百万活跃用户」里程碑。短短一天后，OpenAI 再次乘胜追击，扔出王炸——

GPT-5.3-Codex。

技术文档里藏着一句极具分量的话：「这是我们第一个在创造自己的过程中，发挥了关键作用的模型。」

说人话就是：AI 已经学会了自己写代码、自己找 Bug，甚至开始自己训练下一代的 AI 了。这种自我进化能力，也直接体现在了一连串跑分数据上。

还记得那个模拟人类操作电脑的 OSWorld-Verified 基准测试吗？前代模型只有 38.2% 的准确率，连及格线都够不上。但这次，GPT-5.3-Codex 直接跳涨到了 64.7%。

要知道，人类的平均水平也就 72%。这意味着，AI 距离像你一样熟练地甩鼠标、切屏、操作软件，只剩下一层窗户纸的距离。

而在 Terminal-Bench 2.0（命令行操作基准测试）中，它更是拿下了 77.3% 的高分，把 GPT-5.2（62.2%）远远甩在身后。

在覆盖四种编程语言，不仅抗污染，还全是真实世界的硬核工程难题的SWE-Bench Pro 基准测试中， GPT-5.3-Codex 也表现出了 SOTA 水准，而且用的 Token 比以往任何模型都少。

OpenAI 甚至展示了它独立构建的能力：

在几天内，它从零构建了一款包含多张地图的赛车游戏 v2，顺手还搞定了一款管理氧气系统的深海潜水游戏。

最让我印象深刻的是 GPT-5.3-Codex 对模糊意图的理解。

在构建落地页时，它自动把年度计划换算成了打折后的月付价格，甚至还贴心地自动补充了用户评价轮播——这一切，都不需要你下指令。

OpenAI 的野心已经写在脸上了：以前微软常说 AI 将会成为人类的副驾驶（Copilot），但现在 AI 更想做那个能掌控方向盘、甚至能自己修车的司机。

对了，还有一个有趣的细节。

此前外界盛传 OpenAI 对英伟达的 AI 芯片颇有微词，但这次官方博客特地强调：GPT-5.3-Codex 的设计、训练和部署都在 NVIDIA GB200 NVL72 系统上完成。

这一波高情商的「感谢英伟达」，属实是给足了黄仁勋面子。

告别「金鱼记忆」Claude 迎来绝地反击

在 GPT-5.3-Codex 发布的前后脚，Anthropic 也端出了自己的春节大礼包。

坏消息是，大家期待的 Claude「中杯」Sonnet 模型没有更新；但好消息是，Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比于 OpenAI 在行动力上的激进，Anthropic 今天发布的 Claude Opus 4.6 则是在思考力和可靠性上死磕。

很多企业用户都有一个名为 Context Rot（上下文腐蚀）的痛点：号称支持 200k 上下文，但塞进去的数据一多，AI 就开始顾头不顾尾。

这次，Claude Opus 4.6 拿出的数据简直是「降维打击」。

在 MRCR v2（长文本大海捞针）测试中，Claude Opus 4.6 的召回率高达 76%。

作为对比，上一代 Sonnet 4.5 只有惨不忍睹的 18.5%。从某种程度上说，这是一个从基本不可用到高可靠的质变。

这是因为 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

这意味着什么？意味着你可以把几百页的财报、几十万字的代码库直接扔给它，它不仅能读完，还能精准地告诉你第 342 页脚注里的那个数字有问题。

此外，它现在还支持最高 128k 的输出 Token。什么概念？你可以让它一次性写完长篇研报或复杂的代码库，而不用因为字数限制被迫截断。

除了记性好，Opus 4.6 这次还在智商上实现了碾压：

在 GDPval-AA（一项针对金融、法律等高经济价值任务的评估）中，Opus 4.6 的 Elo 得分比业界第二（OpenAI 的 GPT-5.2）高出了整整 144 分，比前代更是高出 190 分。

在复杂的多学科推理测试 Humanity's Last Exam 中，它领先所有前沿模型。

在测试寻找互联网「难找信息」能力的 BrowseComp 中，它同样表现最优。

通过这些数据，Anthropic 似乎在传递一个信号：如果你要写代码，去隔壁找 OpenAI；如果你要处理复杂的商业决策、法律文书或金融分析，Claude 才是唯一的选择。

更让打工人眼前一亮的是它的生产力功能。

一方面，Anthropic 这回直接把 Claude 塞进了 Excel 和 PowerPoint。它能根据 Excel 数据直接生成 PPT，不仅保留排版风格，连字体和模板都能对齐。在 Claude Cowork 协作环境中，它甚至能进行自主多任务处理。

另一方面，Anthropic 顺势在 Claude Code 中推出了实验性的 Agent Teams 功能，让普通开发者也能体验这种「指挥千军万马」的感觉：

角色分工：你可以指定一个 Claude Session 担任 Team Lead（组长），它不干脏活累活，专门负责拆解任务、分配工单、合并代码；其他的 Session 则是队友（Teammates），各自领任务去干。

独立作战：每个队友都有独立的上下文窗口（不用担心 Token 爆炸），它们甚至能背着你互相发消息（Inter-agent messaging），讨论技术细节，最后只把结果汇报给组长。

并行赛马：这东西有什么用？想象一下查一个顽固 Bug，你可以生成 5 个 Agent，分别验证 5 种不同的假设，像「赛马」一样并行排雷；或者在 Code Review 时，让一个队友扮「安全专家」查漏洞，一个扮「架构师」看性能，互不干扰。

为了展示 Opus 4.6 的极限，Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验：Agent Teams（智能体团队）。

他没有亲自写代码，而是扔了 2 万美元的 API 额度，让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。

结果在短短两周内，这群 AI 自主进行了 2000 多个编程会话，从零手写了一个 10 万行代码的 C 语言编译器（基于 Rust）。

这个 AI 写的编译器，还成功编译了 Linux 6.9 内核（涵盖 x86、ARM 和 RISC-V 架构），甚至跑通了 Doom 游戏。

虽然它还不够完美（比如生成的代码效率不如 GCC），但这个案例也表明我们不再是和 AI 一起编程，而是看着一个 AI 团队自主协作、查错、推进项目。

此外，它还学会了 Adaptive Thinking（自适应推理），能根据难度自己决定「想多久」。加上新增的「智能强度」控制，你可以在 Low 到 Max 四档之间切换。

定价方面，Anthropic 这次很良心，维持在每百万 Token $5/$25 的基础定价。看来是为了抢占企业级市场，铁了心要和 OpenAI 卷到底。

一个是激进天才，一个是靠谱老牛

知名 AI 评测人 Dan Shipper 在第一时间搞了个「盲测」（Vibe Check），他的评价非常精准：

Claude Opus 4.6 是「高上限，高方差」（High Ceiling, High Variance）。

它像是一个才华横溢但偶尔跳脱的天才。在测试中，它直接解决了一个让 iOS 团队卡了两个月的功能难题；在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶尔也会「过度自信」，一本正经地胡说八道。如果你需要突破性的灵感，选它。

GPT-5.3-Codex 则是「高可靠，低方差」（High Reliability, Low Variance）。

它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升 25%，几乎不犯低级错误，稳健得让人心安。

虽然在创造性任务上略逊一筹（LFG 得分 7.5/10），但在日常的 Coding 和运维任务中，它是最高效的老黄牛。

当然，比起选择哪款模型，更重要的是，当 ChatGPT 可以自主修 Bug 甚至操作你的终端，当 Claude 可以一次性吞吐海量文档并精准定位细节时，Prompt Engineering（提示词工程）的重要性正在下降，而 Agent Management（智能体管理）的能力开始浮出水面。

我们不再需要像教小学生一样，把指令拆解得碎碎念。相反，我们需要做的，是学会如何以管理者的身份，去定义目标、审核结果、以及决定在什么时候，把什么任务交给哪位 AI 员工。

这就是 2026 年的新职场。你的团队里混入了一群硅基天才，而你是唯一的碳基老板。

本文来自微信公众号“APPSO”，作者：发现明日产品的，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

刚刚，ChatGPT 和 Claude 同时大更新，不会给 AI 当老板的打工人要被淘汰