GPT-5.5 把模型竞争推向执行型工作
OpenAI 的 GPT-5.5 发布说明,前沿模型正在被长任务执行、工具使用、成本和安全路由共同评估,而不只是比智力分数。
概述
GPT-5.5 不只是另一张模型分数表。OpenAI 把它描述成面向执行型工作的模型:跨大型系统写代码、使用工具、在线研究、分析数据、生成文档和表格、操作软件、检查自己的工作,并在不确定任务里持续推进。真正重要的变化是,它不再主要被包装成回答问题的模型,而是被放进 ChatGPT 和 Codex 里,作为可以承担工作的一层执行能力。
这会改变 builder 评估前沿模型的方式。问题不再只是“它是不是比上一代更聪明”,而应该是“我能把哪类任务安全交给它,它需要多少上下文和工具权限,它持续工作时成本如何,我如何确认它真的完成了”。GPT-5.5 的信号是,前沿 AI 竞争正在从孤立推理转向长时间、工具化、可验证的执行。
社区反应也印证了这个变化。HN 和 Reddit 的讨论很快从 benchmark 转向 rollout 时间、API 可用性、Codex 限制、cyber safeguards、输出 token 价格。这些问题问得对。对 Agentic work 来说,模型价值和可用性、成本控制、安全路由、以及把 token 变成完成任务的 harness 分不开。
发生了什么
OpenAI 在 2026 年 4 月 23 日发布 GPT-5.5。官方称它是当时最聪明、最直觉化的模型,在 agentic coding、computer use、knowledge work 和早期科学研究上有明显提升。GPT-5.5 开始向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户 rollout,GPT-5.5 Pro 面向更高层级 ChatGPT 用户,API 随后在附加安全要求下开放。
发布内容列出 Terminal-Bench 2.0、GDPval、OSWorld-Verified、BrowseComp、CyberGym、FrontierMath、遗传学和生物信息学工作流等多项结果。OpenAI 还强调效率:GPT-5.5 在处理更难任务时保持 GPT-5.4 的 per-token latency,并在 Codex 任务上使用更少 token。
但最有信息量的不是分数表,而是用例。OpenAI 描述了内部团队和早期用户如何用 GPT-5.5 处理复杂代码库变更、finance 表格任务、业务周报、演讲邀约风险分流、研究分析、数学可视化和基础设施优化。这些例子有共同模式:模型不是给一个答案,而是在工作流里持续移动。
社区反馈也很实际。一些用户关心它什么时候出现在 ChatGPT、Codex 或 API;另一些用户关注更高 token 成本、rate limits、以及合法 cyber 工作是否会被安全策略路由或限制。这些才是前沿 Agent 模型真正的发布面。
为何重要
GPT-5.5 重要,是因为它把“完成工作”放到了发布中心。在 GPT-4 时代,市场主要问模型能否回答问题、写代码片段、解推理题。进入 Codex 和 ChatGPT Agent 时代,模型必须在时间中工作:理解含糊任务,规划路径,选择工具,检查输出,调整方法,留下别人可以信任的 artifact。
这已经是另一个产品类别。一个模型在 benchmark 上高 5%,如果昂贵、脆弱、或者不在用户工作流里可用,价值可能有限。另一个模型在表格里不那么显眼,但如果更便宜、更稳定、集成在正确工具里、更容易监督,反而可能更有用。GPT-5.5 推动市场把能力看成系统属性。
这次发布还说明,模型实验室正在用自己的 Agent 改进基础设施。OpenAI 称 Codex 和 GPT-5.5 帮助优化 serving system,包括流量分片和 load balancing heuristics。如果这个方向成立,它很重要:模型不只是被基础设施服务的产品,也正在成为改造基础设施的工具。
对 builder 来说,这意味着未来优势属于能闭环的团队:把模型行为、产品 telemetry、评估和部署连起来。单个模型不是产品,这个闭环才是产品。
技术要点
技术上,Agentic model quality 至少要沿四个轴评估:持续性、工具落地验证、每个完成任务的成本、policy routing。持续性是模型在含糊任务里不轻易停下,也不过早宣称成功;工具落地验证是它检查真实输出,比如测试、文件、表格、浏览器状态、日志或源文档;每个完成任务的成本看的是整次运行,而不是单价;policy routing 则关注安全层何时改变用户实际拿到的模型或行为。
GPT-5.5 的核心主张正好落在这些轴上。OpenAI 说它更能跨系统保持上下文、理解含糊失败、用工具检查假设、把修改带过整个代码库。这些行为才是生产 Agent 真正需要的。
风险在于,这些质量很难只靠发布材料验证。Benchmark 有帮助,但 builder 需要私有 eval 重放自己的任务。代码库 Agent 要在真实 diff 和失败测试上测;Finance Agent 要在混乱 workbook 和来源核对上测;研究 Agent 要在有歧义的数据上测,而不是只测干净公开问题。否则,“agentic”会变成宽泛营销词。
对建设者的影响
Builder 应该把 GPT-5.5 当成升级评估 harness 的理由,而不是直接升级产品宣传。如果产品使用类似 Codex 的长时间工作流,就增加任务级指标:完成率、人工纠正次数、工具错误恢复、测试通过率、token 花费、耗时、最终报告是否和真实 artifact 一致。
成本要成为一等产品设计。围绕 GPT-5.5 的社区反馈说明,用户会注意能力提升是否伴随更紧 usage 或更高开销。Agent 产品应该在任务开始前展示预算、effort 和停止条件,也应该允许用户用低成本设置重跑,或者只升级失败步骤。
这次发布还提醒 builder 区分“生成”和“运营”。GPT-5.5 可以生成代码、表格、报告、研究 artifact,但产品仍然需要权限、版本、来源、rollback、approval、audit log。模型越自主,这些看似乏味的控制越有价值。
如果你做的是前沿模型 wrapper,差异化必须转向工作流所有权。泛泛地说“用 GPT-5.5 完成工作”会很脆弱。真正有价值的是知道一个窄领域,能用领域规则验证输出,并在正确节点把工作交给人。
对研究者的影响
对研究者来说,GPT-5.5 说明评估需要测过程,而不只是最终答案。很多能力主张都关于随时间展开的行为:规划、工具使用、上下文保持、自检、持续推进。静态 benchmark 只能捕捉一部分。
科学和专业工作例子也带来验证问题。如果模型写出有用分析报告或发现数学证明,关键是过程里哪些部分被独立检查。OpenAI 对某个数学结果提到形式化验证,这是正确方向。类似标准也应该进入生物医学分析、金融工作流和安全工作。
Cyber capability 是另一个研究压力点。OpenAI 一方面把 GPT-5.5 描述成防御有用的模型,一方面部署更强 safeguards。困难研究问题不是简单允许或拒绝,而是如何提供有用防御能力、识别授权信号、防止滥用,并保留足够透明度让专业用户知道系统为什么改变行为。
社区信号
HN 和 Reddit 的反应显示用户已经成熟。他们问 API 时间、Codex 可用性、usage limit、价格、模型路由、cyber 限制,也问 benchmark 是否能在私有任务上复现。这正是严肃市场该问的问题。
最有用的社区信号是:模型发布现在就是服务发布。用户不是抽象地体验 GPT-5.5,而是通过 ChatGPT、Codex、CLI 版本、rate limit、订阅、安全分类器、工具集成体验它。任何一层出问题,即使底层模型更强,用户也会觉得产品更差。
所以 builder 应该认真看抱怨。关于限制的抱怨可能揭示成本结构,关于拒绝的抱怨可能揭示 policy friction,关于 rollout 的抱怨可能揭示依赖风险。这些不是情绪噪声,而是产品信号。
该忽略什么
不要相信 GPT-5.5 本身已经让 Agent 足够可靠、可以无监督工作。它可能是更强模型,但可靠性仍取决于任务边界、工具权限、eval、approval 和 verification。更持续的 Agent 如果缺少停止条件,也可能更持续地朝错误方向走。
不要只看 benchmark 比较而忽略成本和 harness。Agentic work 的正确单位是“每个已完成且已验证任务的价值”。一个模型多完成 10% 任务但花费大幅增加,未必更好。
最后,不要把 safeguards 当成外部政策脚注。在安全、生物和企业工作流里,safeguards 会塑造产品真实行为。builder 必须测试自己在实际策略下真正拿到的模型,而不是只测试发布稿里的模型。