GPT-5.5是OpenAI一年多来第一次真正换底

YY2026-04-26 10:05:053

中文媒体说它是又一次升级。但代号 Spud 背后藏着一条没人提的线。

4 月 23 日发布，4 月 24 日 API 全开，节奏比往常快一天

4 月 23 日，OpenAI 官方发布页挂出 GPT-5.5，代号 Spud。第二天 API 全量开放，gpt-5.5 和 gpt-5.5-pro 两个版本同时上线。

发布页给的定位是"最智能、最直观的模型"，主打四个方向：agentic coding（让模型自主写代码、跑代码、改代码）、computer use（操作电脑）、knowledge work、早期科研协作。Terminal-Bench 2.0 拿到 82.7 分，GDPval 84.9 分。系统卡和发布页同步更新，新增 API 上线后的额外安全约束。

X 上的官方主线把它形容成 "a new class of intelligence for real work and powering agents"。早期接入的近 200 个合作伙伴里，有人反馈说它更像"研究伙伴"。

听起来又是一次常规迭代——直到你回头看 OpenAI 过去一年发了什么。

5.1、5.2、5.3、5.4 都共用一套底，5.5 才是真正的换底

这一段是目前中文媒体几乎都没提到的事。

GPT-4.5 之后，OpenAI 一年多里陆续放出 5.0、5.1、5.2、5.3、5.4，外界默认每一个小数点后的版本号都是某种"升级"。但对照官方发布页和过往 release notes，会发现一个一直被掩盖的事实：5.x 家族里，5.5 之前的所有版本都是 post-training 迭代——也就是同一个预训练好的基座，反复做指令微调、做对齐、做工具调用训练得到的产物。

GPT-5.5 才是自 GPT-4.5 以来第一次完全重训练的新基座。

这件事在产品发布的语境里听起来像技术细节，实际上不是。预训练是一笔以亿美元计的开销，post-training 不是。这意味着 OpenAI 一年多里把账面上看起来很多的"新模型"，全部摊在了同一次大预训练上。直到 Spud 出现，才重新启动了那台烧钱机器。

换句话说，市面上你看到的所有 5.x 模型，能力差异本质上都来自"换教练"，不是"换大脑"。GPT-5.5 是这一年多里 OpenAI 第一次重新捏出一颗大脑。

这个角度也解释了一件事——为什么 OpenAI 这一年发布密度极高，但每次的能力跳跃都不算特别夸张。因为基座没变，post-training 能挤的水分总有上限。Spud 上来之后，分数一下子上了一个台阶，并不偶然。

更值得读的细节是，OpenAI 在发布页里并没有明确说 GPT-5.5 是"新基座"。这个信息散落在系统卡的训练数据截止时间（2025 年 8 月，比 5.4 晚了 6 个月）、新的 tokenizer 配置、以及合作伙伴的早期访问反馈里。把这几条线索拼起来，结论才浮出水面。这种处理方式本身就说明问题——预训练成本是 OpenAI 最不想被外界精确估算的数字之一。说"新基座"等于隐含告诉市场"这一次又烧了多少亿"，不说，账面就还是漂亮的。

"用更少 token、付更多钱"，OpenAI 完成了一次隐形加价

发布页里 OpenAI 反复强调一句话：完成相同 Codex 任务时，GPT-5.5 使用的 token 显著更少。X 主线也在重复这个叙事——更聪明、更高效、更省。

但发布页只字未提单价。

第三方评测机构 Artificial Analysis 把账算了出来。GPT-5.5 的 per-token 价格相比 GPT-5.4 直接翻倍——输入 5 美元、输出 30 美元（每百万 token）。与此同时，token 用量平均下降约 40%。两笔一相乘，跑完整个 Intelligence Index 的真实成本上涨大约 20%。

维度	GPT-5.4	GPT-5.5
输入单价（每百万 token）	≈ $2.5	$5
输出单价（每百万 token）	≈ $15	$30
平均 token 用量	基准	下降约 40%
Intelligence Index 真实成本	基准	+20%

这就有意思了。

OpenAI 给出的话术框架是"省 token"，读起来你会以为模型变便宜了。但 token 不是收银台，钱才是。把价格和用量放在一起算，得到的结论是这次发布整体涨价 20%。

更妙的地方在于，这个加价方式让用户很难抱怨。你不是被涨价了，你只是"用了更聪明的模型"。月底账单变大的时候，没人会觉得是单价在涨。

翻完目前能找到的中英文报道，几乎所有热文都在引用 OpenAI 自己的"更便宜"话术。Artificial Analysis 那张实测成本对比图被引用得很少。差额几乎没人拎出来看。

这是一次完成度很高的效率叙事——技术指标全是真的，但落到用户钱包里，方向是反的。

更隐蔽的一层在于场景差异。"省 token"这个红利只对长任务有效——一个跑半小时的 agent，5.5 可能用掉过去 60% 的 token，账单确实可能持平甚至略低。但短任务不一样。一次简单的分类调用，5.4 用 200 个 token，5.5 也得 150 个上下，因为 prompt 部分根本压不下去。这种场景下你拿到的是纯粹的单价翻倍。

换句话说，这次定价改动里隐藏了一次结构性的转移：把价格优势让给做 agent 的人，把成本上涨摊给做高频短任务的人。两类客户在 OpenAI 营收里的权重，正在被悄悄重排。这和 OpenAI 这一年的产品方向也是吻合的——Codex、Operator、Computer Use 这些 agent 产品全是高 token 消耗场景，OpenAI 想让生态向这边倾斜，定价杠杆就得这么调。

SWE-Bench Pro 一栏的脚注，是 OpenAI 第一次隐式指控友商

发布页里有一张大的 benchmark 对比表。GPT-5.5 在大部分项目上拿到第一。

但 SWE-Bench Pro 这一行不一样。Claude Opus 4.7 的分数比 GPT-5.5 高，OpenAI 没赢。

按惯例，这一栏要么不放，要么放完承认。但 OpenAI 选了第三种走法——在 Anthropic 那一格分数旁边加了一个脚注：

"Anthropic reported signs of memorization"

（Anthropic 自己也报告了模型存在记忆痕迹）

在自己的发布页里、在自己的对比表里，给竞品分数加一行"它们这个数据可能有污染"，这是相当少见的动作。它至少有三层信号：

第一，OpenAI 在 SWE-Bench Pro 这条线上接受了数字层面输给 Claude Opus 4.7，转而打"我们的 58.6 是干净的、它们的 64.3 不是"这种合规牌。

第二，把竞品的自我披露（Anthropic 自己说测试集可能被记住）当弹药用。这个脚注在事实层面无懈可击——它没有指控 Anthropic 主动作弊，只是引用了对方自己说过的话。

第三，这是一次相当克制的攻击。它没有出现在博客正文，没有出现在 X 主线，只埋在 benchmark 表的小字里。但只要有人认真读表，这个脚注就会让 Anthropic 在 SWE-Bench Pro 上的领先看起来含糊。

这条信号比 ARC-AGI-2 上 +11.7 分的领先更值得读。它说明 OpenAI 已经开始把"测试集干净度"当作一条新的竞争维度。比拼数字不再是唯一战场——数字的可信度也是。

往前回想一下，过去两年大模型 benchmark 战争的常见戏码是这样的：A 公司发布，超过 B 公司 5 分；下个月 B 公司发布，又反超 4 分。读者看到的全是绝对数字，没人深究测试集污染、训练数据截止时间、跑分时的 system prompt 设置。这次 OpenAI 把"对方自己承认了记忆痕迹"这件事公开摆在表里，等于在 benchmark 战争里开了一道新的口子。

接下来如果 Anthropic、Google、xAI 任何一家发布新模型，都得提前想好——你的训练数据有没有意外吃进 SWE-Bench Pro 的题面，你愿不愿意像 Anthropic 那样自我披露，披露之后会不会被对手当成脚注引用。这件事的连锁影响，比 GPT-5.5 本身的能力跳跃还要长远。

Spud 之后，下一颗大脑要等到 GPT-6.5

把这三件事拼在一起，能看到一个比"GPT-5.5 发布"大得多的故事。

OpenAI 用一颗新基座配上一套"看似变便宜"的定价，重新拉开了 5.x 家族的成本上限。预训练这笔大账，估计还要在接下来的一年里继续摊给 5.6、5.7、5.8——历史会重复。Spud 之后，下一颗真正的大脑大概要等到 6.5 才会出现。

对开发者最实际的几个判断：

做长任务 agent 的：如果你在做 computer use、需要大量工具调用的场景，可以试 5.5——能力提升在这一类任务上最明显，token 节省也大概率能抵消单价。Terminal-Bench 2.0 上 82.7 分对应的是模型能在终端里连续跑几十步操作不崩，这个跳跃值得切。

做高频短任务的：如果你做的是批量 embedding、客服话术分类、文本审核这类短上下文、对成本敏感的应用，不要急着切。这次发布的"省 token"红利在你这种场景里几乎兑现不了，账单会直接涨 100%。在这类场景里，5.4 甚至 5.3 还会是更好的性价比选项——OpenAI 没说要下线它们，但历史上"老版本被悄悄涨价或限速"的情况发生过不止一次，建议早做迁移评估。

读 benchmark 的所有人：SWE-Bench Pro 的那个脚注提醒你，benchmark 已经进入了"既看数字也看出处"的阶段。下次再有公司宣称在某个评测上拿到第一，请先看脚注。

最后留一个观察。GPT-5.5 的代号是 Spud，土豆。这个内部代号在系统卡里露过几次。OpenAI 这一代命名风格越来越像研究项目而不是产品——上一颗真正的新基座（GPT-4.5）内部代号是 Orion。从 Orion 到 Spud，发布姿态明显放低了。这或许是 OpenAI 自己也意识到——预训练这条路上，每一颗新大脑能拉出来的领先优势，正在变得越来越小。

这里是费曼比特，每一个观点都追溯到一行源码、一段论文、或一个数据。

数据来源：

OpenAI 官方发布页 Introducing GPT-5.5：https://openai.com/index/introducing-gpt-5-5/

GPT-5.5 System Card：https://openai.com/index/gpt-5-5-system-card/

OpenAI Deployment Safety Hub - GPT-5.5：https://deploymentsafety.openai.com/gpt-5-5

Artificial Analysis 第三方实测：https://artificialanalysis.ai/articles/openai-gpt5-5-is-the-new-leading-AI-model

OpenAI 官方 X 发布主线：https://x.com/OpenAI

本文链接：https://www.chatgpt123.cn/ai/36.html

2026 ChatGPT Images 2 使用教程，生图效果太逼真，附最新玩法和提示词
苏生不惑原创文章，加入我的知识星球 ,2025 苏生不惑年度总结最近ChatGPT Images 2 上线，效果直接秒杀谷歌Nano Banana ，GPT-Image-2在模型...
ChatGPT资讯2026-04-291Codex
GPT Image 2：AI 作图不只是会画，已经开始会“设计”了
以前的 AI 作图，更多是“画一张好看的图”。这次 GPT Image 2 不一样。它更像一个会排版、会写字、会做海报、会做信息图、会理解商业场景的AI 视觉设计师。简单说：过去 AI 帮你画图。现在...
ChatGPT资讯2026-04-291Codex
炸了！GPT-Image-2最新教程 80组提示词，直接抄
GPT-Image-2完整使用教程+提示词（2026最新）直接拿走（免费保存）GPT-image-2正式上线了。然后，所有的社群、社媒都玩疯了。甚至，GPT-image-2生成的梗图，一度冲上了微博热...
ChatGPT资讯2026-04-291Codex
GPT Image 2 实测，太逆天了！细节拉满无对手！
兄弟们最近肯定都有被 GPT image 2 刷过屏吧，不知道的兄弟，先给你们看张图。这张平平无奇的照片，要是不说的话，铁定以为是哪个人随手拍一下和老板的聊天内容。但有心理准备的兄...
ChatGPT资讯2026-04-291Codex
我不建议你直接用 GPT-Image-2
昨晚睡觉前我写了一篇关于 GPT-Image-2 的文章，有读者说无图无真相，也不知道具体在哪怎么用。所以，今天我准备写一篇有图且有真相，但真相又不一定真实的文章。先直观感受下 G...
ChatGPT资讯2026-04-291Codex