ChatGPT中文网

GPT-5.5 来了:性能起飞,省钱又聪明,还不减速

YY2026-04-24 10:30:143

OpenAI 刚刚在凌晨发布了 GPT-5.5,这次不只是”更聪明”,而是可以更好独立完成一个任务了。

1. 这次到底强在哪?

GPT-5.5 的核心升级不是单点能力,而是整体完成任务的方式变了。

过去用 AI呢,我们需要自己管理每一步,现在我们就可以把一个混乱的、多步骤的任务直接扔给它,让它自己去规划、去调用工具、去自查结果、去处理模糊情况,直到把事情做完。

强了

更关键的是:它变聪明了,但没变慢。

GPT-5.5 与 GPT-5.4 在实际服务中保持相同的每 token 延迟,同时完成同样的 Codex 任务所用 token 数量更少。

在人工智能分析的编码指数 (AIA) 中,GPT-5.5 以竞争对手前沿编码模型一半的成本,提供了最先进的智能。

2. 编程能力:业界第一,没有之一

但我想问,claude同意吗?

代码方向是 GPT-5.5 最硬的可以秀肌肉的维度。

在 Terminal-Bench 2.0(测试复杂命令行工作流)上,GPT-5.5 准确率达到 82.7%,GPT-5.4 是 75.1%。

在 SWE-Bench Pro(真实 GitHub issue 修复)上,得分 58.6%,一次性端到端解决的任务比以前更多。

内部的 Expert-SWE 测试中,任务的中位人工完成时间是 20 小时,GPT-5.5 同样优于 GPT-5.4。

更重要的是:三项测评全部提升,同时用的 token 还更少。

3. 真实工程师怎么说?

文章收录了多个早期测试者的反馈,几句话很能说明问题。

Every 创始人 Dan Shipper 遇到了一个复杂的上线后 bug,自己调了好几天,最后请来最好的工程师重写了系统的一部分。他用 GPT-5.5 做了个”时光倒流”测试——让它看着崩溃状态,能不能给出同样的重写方案? GPT-5.4 做不到。GPT-5.5 做到了。

MagicPath CEO Pietro Schirano 描述了一个场景:GPT-5.5 将一个包含数百个前端与重构改动的分支,合并进一个同样已发生大量变更的主分支,大约 20 分钟,一次搞定。

一位 NVIDIA 的工程师说得更夸张: “失去 GPT-5.5 的感觉,就像截肢。”(这么说几过分了哈...)

过分

4. 不只是写代码,“知识工作”全覆盖

文章指出,GPT-5.5 在日常电脑工作上同样有明显提升。

在 GDPval 测试(覆盖 44 种职业的知识工作)中,GPT-5.5 得分 84.9%; OSWorld-Verified(测试模型能否自主操作真实电脑环境)得分 78.7%; Tau2-bench 电信客服流程测试中,达到 98.0%,且未做任何 prompt 调优。

GDPval 测试

OpenAI 内部已经有超过 85% 的员工每周使用 Codex,覆盖工程、财务、市场、数据科学等多个部门。

文章举了几个内部真实案例:

  • 传播团队用 GPT-5.5 分析了六个月的发言申请数据,搭建了评分和风险框架,并验证了一个自动化 Slack 代理。

  • 财务团队审阅了 24,771 份 K-1 税表,共 71,637 页,比上一年提前了两周完成。

  • 一名 GTM 团队成员自动化了每周业务报告的生成,每周节省 5-10 小时。

5. 科研方向:开始有点”超出预期”

这部分是文章最让人意外的地方。

GPT-5.5 在 GeneBench(多阶段遗传学数据分析)上,从 GPT-5.4 的 19.0% 提升到 25.0%;在 BixBench(生物信息学)上达到 80.5%。这些测试任务,往往对应科学专家需要花多天完成的项目。

GeneBench(多阶段遗传学数据分析)上 测试

更令人瞩目的是:一个配备自定义框架的内部版 GPT-5.5,帮助发现了一个关于 Ramsey 数的新证明——这是组合数学中的核心研究对象,相关结果极为罕见。该证明随后在 Lean 中得到了形式化验证。

免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,生成了详细研究报告,并指出他的团队原本需要花几个月才能完成这项工作。

6. 推理效率:它参与优化了自己的运行环境

文章透露了一个有趣的细节:为了让 GPT-5.5 在不增加延迟的情况下上线,OpenAI 对推理基础设施做了深度重构,而 GPT-5.5 本身参与了这一过程。

它参与优化了自己的运行环境

Codex 帮助工程团队分析了数周的生产流量数据,编写了优化负载均衡的启发式算法,token 生成速度提升超过 20%。 简单说:这个模型帮着改进了跑它自己的系统。

7. 安全方面:能力越强,管控越严

文章特别强调,GPT-5.5 在网络安全和生物/化学领域的能力被评定为”High”级别(Preparedness Framework 分级)。 OpenAI 为此部署了更严格的分类器,并推出”Trusted Access for Cyber”项目,让有资质的防御性用户获得更少限制的访问权限。

8. 价格与上线情况

目前,GPT-5.5 已经向向 Plus、Pro、Business、Enterprise 用户开放,GPT-5.5 Pro 向 Pro 及以上用户开放。

API 价格方面:gpt-5.5 也快上线,输入 5/百万 token,输出 30/百万 token,上下文窗口 100 万 token。gpt-5.5-pro 定价为输入 30,输出 $180。

虽然价格高于 GPT-5.4,但OpenAI指出,由于 token 效率更高,大多数用户的实际使用成本未必会增加。

因此,GPT-5.5 这不是一次渐进式更新,而是agent能力的一次系统性跃升,从写代码到做科研,它正在从”辅助工具”变成真正意义上的”工作伙伴”。


本文链接:https://www.chatgpt123.cn/ai/32.html

阅读更多

相关文章

网友评论