首页文章详情

Codex 500万用户福利被怼“作秀”,Claude Code 吃掉近九成 Token,OpenAI 抢用户败在“小气”上?

极客邦科技InfoQ2026-06-01 17:10
“玩归玩、闹归闹,别拿我的token开玩笑~”

“所有付费版 ChatGPT 订阅用户的 Codex 使用额度已完成重置。你的每周额度和每小时额度都应该已经恢复到 100%。今天就让 token 去创造些了不起的东西吧,玩得开心。”OpenAI Codex 负责人 Tibo 发帖称。

据悉,这一举措是为了庆祝 Codex 用户突破 500 万大关。这意味着,近期因达到 Codex 使用上限而受限的 ChatGPT 付费用户,可以重新获得完整额度,继续使用 Codex。已有用户确认,自己的周额度已从约 60% 恢复到 99%,表明本次重置已经在部分用户账户中生效。 此前,ChatGPT Plus、Pro 等用户达到使用限制后,需要购买额外 credits 以继续使用。

不过,用户们对此次 OpenAI 的重置“福利”的反应并不相同。

一部分用户对额度恢复表示欢迎,“我当时真的很努力得想用掉我的 token,哈哈”还有用户表示,“你额度重置的帖子,正好推了我一把,让我终于去试了试 fast 模式。我之前一直没用,是担心使用额度烧得太快。但这次额度重置之后,我就很容易拿它来跑真正的 eval 和 review-agent 工作了。现在,新鲜出炉的 token 已经给我带来过量多巴胺了。”

但更多人的态度是:“实际上,它并没有给大多数人带来任何真正的好处,只是表面上的重置而已。”

对许多人来说,新一周刚开始不到一天,额度还没来得及消耗多少,突然重置反而浪费。不少用户表示,自己的常规周重置刚刚发生不久,因此这次额外重置几乎没有带来实际收益。

有用户询问当前是否按 5 倍计算,也有人问 100 美元订阅档是否不再拥有双倍使用量。帖子下方回复称,按太平洋时间计算,双倍额度仍会持续到当天结束。

还有用户表示自己在这次本是“福利”的活动中反而亏了。“我的每周额度原本应该在 6 号重置,而且我除了打开应用查看重置日期之外,并没有实际使用额度。结果现在我的每周重置日期变成了 7 号。如果用户的额度本来还是 100%,这次统一重置就不应该把他的重置日期往后推。”Jimmni 说道。

对此,有网友回复解释称,“在小于 7 天的窗口期内,你不可能真正处于 100% 额度状态。你需要至少发送一条 prompt / 消息来启动这一周的计量周期,而这会让你的额度低于 100%(不过四舍五入后,界面上可能仍然显示为 100%)。”

Jimmni 回复称,他之前的经验是,只要打开应用,Codex 就会把 5 小时额度设成 99%、每周额度设成 100%,这样就足以“锁定”用户的重置日了,并不需要真的至少发送一条 prompt。其最后直接道,“对我来说,少了一天。这次重置对我完全是负面的。”

统一重置,确实能缓解部分高频用户的使用压力,但重置时机、双倍额度持续时间、不同订阅档位的权益差异,以及周额度窗口如何计算,仍是用户最关心、但也很难统一解决的问题。

Claude Code 8 倍于 Codex token 消耗

“美国人还没醒的时候先用 Claude;等美国用户上线、Claude 变慢之后,再切到 Codex。”Anthropic 一直拿用户来调整工具和定价策略,Codex 借此用户 500 万了,但 Claude Code 依然是开发者们首选。

AI 成本管理平台 CostHawk 发布“匿名人工智能工具排行榜”,试图用 Token 消耗量衡量开发者对 AI 编程工具的使用强度。该榜单覆盖 Claude Code、OpenAI Codex、Cursor 等 AI 开发工具,并以匿名别名展示用户排名,只公开 Token 数量、模型名称、时间戳和哈希后的项目 ID,不展示真实姓名、账号、邮箱,也不收集或存储提示词、模型回复和源代码。

页面显示,CostHawk 榜单共追踪了 100 名 operator,总 Token 消耗达到 4159 亿。其中,榜首用户 LunarCircuit 使用量约为 525 亿 Token;榜单 Top 1% 用户贡献了 12.6% 的 Token 消耗,显示高强度 AI 编程用户对总体使用量具有明显拉动作用。

从工具占比看,Claude Code 仍是当前榜单中的绝对主力。页面显示,Claude Code 消耗约 3697 亿 Token,占比 88.9%;Codex 消耗约 462 亿 Token,占比 11.1%;Cursor 消耗约 77 万 Token,占比接近 0%。榜单还显示,100 名 operator 中,有 96 名使用 Claude Code,43 名使用 Codex,2 名使用 Cursor。

不过,值得关注的是,Codex 和 Claude Code 的设计不同,也会导致同一个任务的 token 消耗量有很大差异。有开发者在一次标准 Figma 集成任务中,在相同提示词、相同代码仓库、相同目标输出下,Codex 和 Claude Code 的 Token 消耗了现可显著差异:Codex 完成一项基准任务约消耗 7.2 万个 Token,而 Claude Code 约消耗 23.5 万个 Token,后者消耗量约为前者 3 倍。

另外,榜单进一步区分了用户类型:仅使用 Claude Code 的用户占 56%,多工具用户占 40%,仅使用 Codex 的用户占 3%,仅使用 Cursor 的用户占 1%。这意味着,在高强度 AI 编程用户中,Claude Code 仍是主入口,但相当一部分用户已经开始同时使用多款 AI 编程工具。

在增长趋势上,Cursor 本月增长速度比 Codex 快 1.3 倍。其中,Cursor 本月增长 100%,Codex 增长 79.1%,Claude Code 增长 0.1%。不过,由于 Cursor 当前基数较小,其高速增长更多体现为早期扩张信号,尚未改变整体 Token 份额格局。

“从 Claude Code 切换到 OpenAI Codex”这不是最近才兴起的话题。

月前,Reddit 上就有开发者询问,从 Claude Code 迁移到 Codex 的用户体验如何。发帖者称,自己过去数月一直使用 Claude Code Max x20,同时结合 Serena、MCP、GSD1 等工具,并在多个项目中并行使用,但经常遇到会话额度耗尽的问题。

帖子下,部分开发者已经开始把 Codex 作为主力工具。一名拥有 30 多年开发经验的用户表示,Codex 对自己来说“能完成工作”,并认为 Codex 在编写更具未来可维护性的代码方面表现更好;相比之下,Claude 有时需要反复要求修正,尤其在前端任务上表现较弱。不过他也提醒,AI 工具不会对代码库承担长期责任,最终负责的人仍然是开发者自己。

另一名有 20 年经验、在 FAANG 工作的工程师则表示,他通常会在 Claude Code 和 Codex 之间切换,尤其是在额度受限时。他认为,Codex 在最新版本中已经成为自己的首选,原因是反馈更快、推理更好,但他仍然倾向于同时保留两者,并在复杂设计和规划阶段让两个工具互相“对抗式”审查:先让一个工具形成方案,再让另一个工具提出批评。也有用户明确表示准备取消 Claude 订阅,完全依赖 Codex。

不过,不少用户认为,Claude Code 在规划模式和多智能体工作流上仍有优势。有开发者的工作流是:用 Claude Opus 进行规划,用 Codex 执行,再回到 Claude 做清理和优化。他认为,GPT 5.5 仍然会遗漏不少东西,Claude 在理解意图和整体设计上仍有不可替代之处。

额度和价格,是推动用户迁移的重要因素。一名此前几乎只使用 Claude Code 的开发者表示,自己转向 Codex 的主要原因就是使用限制。即便在每月 100 美元方案下,也可能几天内耗尽每周 token。他认为 Claude 更擅长理解目标,但 Codex 更擅长严格遵循指令。与此同时,他也指出 Codex 应用体验并不理想,自己主要使用 Codex CLI,且过去为 Claude 构建的插件和技能无法一键迁移,需要重写。

该用户还提到,OpenAI 的核心聊天界面不计入同样的五小时窗口限制,因此可以用网页端进行初步规划或小型编码任务;而 Claude 网页聊天也会消耗同一订阅窗口,这使得 Claude 在重度开发场景中更容易受到限制。评论区也有人认为,这正是 Claude 难以与 OpenAI 竞争的原因之一。

与此同时,也有用户提醒,频繁耗尽额度未必只与工具有关,可能也和工作流管理不当有关。有开发者指出,如果同时在 3 到 5 个项目中使用 Claude Code,首先要改进的是会话纪律,而不是简单更换工具。过长的历史记录、无目的浏览代码库以及插件过度堆叠,都会烧掉大量 token。即便换成 Codex,如果仍然不控制项目会话和任务切片,也可能只是“从一个供应商那里买到了同样的泥潭”。

AI 编程:个人与团队间的 10 倍价差

随着 AI 编程工具的快速发展,其商业模式也正在收敛。

无论 Claude Code 还是 Codex,都采用了低门槛入门、高强度使用单独收费的模式,并形成了几乎相同的订阅分层:个人用户入门价格约为每月 20 美元,而面向高频专业开发者的高级档位则跳至每月 200 美元。

根据相关公开讨论和产品信息,80%-90% 的用户通常远低于入门档限制,而前 5%-10% 的高频用户贡献了绝大多数推理负载。对于厂商而言,如果继续采用过于宽松的固定价格模式,轻度用户将长期补贴重度用户,最终导致推理成本失控。因此,200 美元档位的作用,是将高消耗开发者单独分层,使真正高频、专业、依赖 AI 编程工具的人为更高算力消耗付费,同时避免普通用户为自己用不到的资源买单。

速率限制也进一步强化了这一分层。AI 编程工具通常会设置一定时间窗口内的使用上限,例如每隔数小时重置一次。当开发者在项目进行过程中频繁触及额度限制时,往往更倾向于升级到高阶订阅,而不是切换到其他工具。对于已经将 Claude Code 或 Codex 嵌入日常开发流程的用户来说,使用习惯和工作流本身也会提高迁移成本。

推理成本是这套价格结构形成的另一关键原因。前沿模型运行成本高昂,尤其是在涉及复杂推理、工具调用和代码执行时,重度用户的实际算力消耗可能远超订阅价格。有分析称,Claude Code Max 每月 200 美元订阅所提供的使用量,如果按随用随付的 API Token 价格计算,成本可能超过 1000 美元。

对厂商而言,200 美元固定订阅费既可以带来更稳定的高价值用户收入,也能在一定程度上对冲推理负载波动带来的成本风险。OpenAI 的 ChatGPT Pro 订阅推出后,曾被报道称在数月内带来显著年化收入增长;Anthropic 推出 Max 档位,也被视为对高频开发者需求和成本结构的直接回应。

这种定价方式对 AI 公司具有明显吸引力。20 美元档负责降低试用门槛、扩大用户基数和收集使用数据;200 美元档则承接那些从工具中获得更高商业价值、也更愿意由个人或公司报销费用的专业用户。相比难以预测的按 Token 计费,订阅收入也更便于厂商规划 GPU 集群、推理资源和研发预算。

这一趋势并不局限于 Anthropic 和 OpenAI。Cursor、Replit 等 AI IDE 和编程平台也已显示出类似阶梯式定价迹象。其底层逻辑基本相同:AI 编程工具的使用量差异极大,重度用户带来的推理成本远高于普通用户,厂商必须通过分层定价维持可持续商业模式。

不过,大趋势下的一些细节可能存在差异:Codex 正试图把 AI 编程能力做成一套可计量、可审计的 Token 经济系统,Claude Code 则更强调通过 Claude 统一工作台锁定开发者日常使用。

从产品定位看,Codex 正在从“ChatGPT 订阅附赠能力”转向“订阅额度 + Token 化计费”。OpenAI 先将 Codex 纳入 ChatGPT Plus、Pro、Business、Enterprise、Edu 等多个订阅方案,通过 ChatGPT 现有用户入口扩大覆盖面;随后再通过 Codex credits 和 token 费率,对高强度开发者使用进行货币化。

OpenAI 在 4 月初,将 Codex 定价从过去“按消息 / PR 平均扣点”,改为与 API token 用量对齐,即按每百万输入 Token、缓存输入 Token、输出 Token 消耗 credits。不同模型对应不同费率,输出 Token 通常明显更贵。这意味着,开发者的长上下文、多轮修复、长输出、代码审查等行为,都会被拆解回更细颗粒度的 Token 成本。

更值得关注的是 OpenAI 的促销策略。当前,OpenAI 为 Pro 100 美元档提供 2 倍 Codex 使用量,直到 2026 年 5 月 31 日,相当于将标准 5x 临时提升至 10x;Pro 200 美元档则在 20x Plus 的基础上,将 5 小时 Codex 限额临时维持在 25x Plus。这一设计,一方面是在用 100 美元档位正面卡位 Claude Max 5x,另一方面也是通过 200 美元档稳住真正的重度用户,降低其因额度焦虑转向 Claude Code 的可能性。

Anthropic 消耗不够透明,也更“企业定制”

相比之下,Anthropic 将 Claude、Claude Code、Claude Desktop 等入口统一纳入同一套订阅预算。Claude Code 的策略更像是在把 Claude 打造成开发者全天候工作台,而不是单独售卖一个 coding 产品。

这使得 Claude Code 的商业价值不仅来自代码工具本身,更来自对开发者日常工作流的锁定。一旦用户把 Claude Code 当作主力工具,Claude 在聊天、文档、代码、分析等场景中的整体订阅粘性都会增强。

不过,相比 Codex 将本地消息、云端任务、代码审查、模型窗口和 credits 拆得更清楚,Claude Code 的额度消耗对用户来说更难精确判断。

近日,Claude Mythos 25 美元 / 每百万输入 token 、125 美元 / 每百万输出 token 的定价,也引发了社区讨论。

“按这个价格,Mythos 上一次深度推理会话的成本,可能就相当于过去 Claude Sonnet 一整个月的使用费用。这个价位也会从根本上改变所有依赖长上下文推理的创业公司的经济模型。”有网友说道。

不少网友认为,这种高价策略正在进一步拉开个人用户与企业级用户之间的使用门槛,也显示出 Anthropic 正将高端能力更多瞄准基础设施层和生产环境,而非个人开发者。

有用户将其称为“给有钱技术宅准备的新档位”,甚至调侃可能会出现“1000 美元套餐”。类似“不适合穷人”的评论,也反映出社区对高端模型定价门槛的直观感受。有开发者调侃称,自己凌晨两点进行轻量级代码修改时,入门级模型已经足够使用,“他们想收多少钱就收多少”。另一位用户也表示,价格确实高,自己夜间写代码仍会使用预算型模型,把钱省下来用于周末出行,同时该开发者也好奇高端模型是否真的能提供与价格匹配的能力。

不过,部分用户认为价格并非完全不可接受。有网友提到,此前部分高端模型的 API 调用价格更高,因此当前价格在高端推理模型市场中并不算极端。也有人表示,如果已有最高订阅档位,或许能够承受这类模型的使用成本。

“若输出价格达到每百万 Token 125 美元,这一定价架构瞄准的并不是个人用户,而是基础设施层客户。”有开发者指出。

这场讨论也再次展现了模型的定价模式:低成本轻量模型可能继续承担日常使用和个人开发场景,而高价前沿模型则更多服务于高价值工作流、企业生产环境和基础设施层调用。而上面的订阅套餐列表项目可能还只是开始,未来或许有更多的可选项,同时开发者对各种收费花样可能也会越来越蒙圈。

AI 编程工具的路线分野

除了定价策略,AI 编程工具的路线也逐渐走出了差异。

开发者“Theo - t3․gg”认为,Claude Code 重体验与情绪,Codex 强调效率与验证,Cursor 押注云端工作流,这三个产品代表了三条不同的路线,三者真正的差异不在于“谁更聪明”,而在于背后团队对“未来如何构建软件”的理解完全不同。

Claude Code 的最大特点是选择从终端切入,而不是要求开发者切换 IDE、安装新应用或迁移到云端环境。它的优势在于“站在开发者已经所在的位置”,通过 CLI 直接接入现有工作流。

这种路径让 Claude Code 快速获得开发者接受。过去 Cursor 在 AI 编程工具中拥有很强的心智占位,但如今 Claude Code 已经接过这一位置。在一些创业者和开发者群体中,原本大量使用 Cursor 的人,已经明显转向 Claude Code。

不过,Theo - t3․gg 也指出,Claude Code 的另一面是强烈的“体验设计”和“营销属性”。他认为,Claude Code 不只是开发工具,也是 Anthropic 展示“用 Anthropic 模型构建 AI 应用”能力的窗口。其 sub-agent、pet mode、终端动画、token 计数、加载状态等设计,都在强化一种“事情正在大量发生”的生产力感,也非常适合在 X/Twitter 上截图传播。

在其看来,Claude Code 的底层哲学可以概括为:如果更多 token 能解决问题,那就使用更多 token。比如通过 sub-agent 并行检查项目、用大量 agent 审计代码、让模型在终端里执行更多操作。这种方式往往确实能让用户感觉“非常高产”,但也可能带来更高的 token 消耗和成本压力。

与 Claude Code 相比, Codex 的产品气质完全不同。Codex 的界面更克制,任务运行时没有大量动画、计数器或多 agent 展示,更多是一个简单的工作状态、计时器和任务输出。Theo - t3․gg 称,Codex “没有试图让自己像老虎机一样令人上瘾”,而是更强调把事情做完。

他多次提到,OpenAI 的 Codex 更关注真实工程问题,而不是社交媒体传播效果。例如,Codex 支持在 Mac 锁屏状态下继续使用电脑、支持新的 diff marker 设置、支持通过快捷键把当前应用画面发送给 Codex 作为上下文。这些功能并不适合截图传播,但能切实提高工程效率。

Theo - t3․gg 尤其强调 Codex 的 computer use 能力。随着模型能力提升,Codex 可以修改代码后实际查看运行结果、验证修改是否成功,而不是单纯依赖模型“想象”代码是否正确。他认为,这代表了 OpenAI 的核心思路:不是用更多 token 反复检查,而是用更好的环境和验证方式,让模型以更少 token 得到更可靠结果。

对于 Cursor,Theo - t3․gg 认为,外界低估了它的真正强项。Cursor 曾经是 AI 编程工具的第一心智,但随着 Claude Code 崛起,很多人把 Cursor 视为“退居第三”。他认为,这是因为很多人仍然只把 Cursor 当作 IDE 使用,而没有看到 Cursor Cloud 的能力。

在 Theo - t3․gg 看来,Cursor 的云端 agent 是三者中最接近未来形态的方案。Cursor Cloud 并不只是提供一个简单的 headless Linux sandbox,而是可以启动完整的图形化 Linux 环境,运行真实应用,再通过 computer use 测试修改结果。

这使得 Cursor 能够承担更多团队级、企业级任务。例如,在 Slack 中有人提出一个产品问题,团队成员可以直接 @Cursor bot,让它启动 agent 修复问题,并在同一 thread 中返回修复后的视频证明。他认为,这种“从协作工具发起任务,再返回可验证结果”的流程,是 Claude Code 和 Codex 当前都难以达到的。

因此,Theo - t3․gg 将三者定位为三个不同时间尺度的押注:Codex 押注当下,解决今天 agent 写代码如何更可靠的问题;Claude Code 押注几个月后的模型能力,认为模型会聪明到不必总是运行代码;Cursor 则押注更远未来,即开发者不再主要在本地电脑上运行 agent,而是通过 Slack、浏览器和云端环境触发任务。

此外,三家公司在开放性和生态策略上也存在明显差异:OpenAI 更愿意提供可构建的底层能力。例如,Codex CLI 中的 app server 为第三方 agentic coding 应用提供了构建基础,开发者可以在其上开发自己的工具。相比之下,Anthropic 更希望用户留在 Claude Code 自身 UI 和 CLI 体验里,把集成深度嵌入 Claude Code,而不是让外部工具以编程方式自由调用。Cursor 则有意向开放 SDK 和 agent 能力,但相关优先级和成熟度仍有不足。

在产品选择上,Theo - t3․gg 建议道,如果一个开发者讨厌写代码、缺乏动力,或者希望写代码过程更有趣、更有成就感,Claude Code 是一个很好的选择。它通过终端、多 agent、动画和强反馈机制,能让用户持续感受到“我正在高效推进”。

如果是经验丰富、对 AI 工具有怀疑精神的工程师,希望工具尽量少打扰自己,只在需要时可靠完成任务,那么 Codex 更合适。他认为,Codex 更像“由工程师构建、为工程师构建”的工具,强调稳定、验证和融入已有工作流。

参考链接

https://x.com/thsottiaux/status/2061106703446450392

https://www.reddit.com/r/codex/comments/1tsydiy/reset_just_happened/?utm_source=chatgpt.com

https://costhawk.ai/leaderboard

https://techforward.io/why-the-20-to-200-pricing-leap-in-claude-code-and-codex/?utm_source=chatgpt.com

https://www.youtube.com/watch?v=JMYspR42HFM

https://www.youtube.com/watch?v=dcrASucavMk

本文来自微信公众号“InfoQ”(ID:infoqchina),作者:褚杏娟,36氪经授权发布。