Claude Opus 4.8:竞争轴心从基准峰值移到长程可靠性

Opus 4.8 是基于 4.7 的增量升级,但 effort 控制、dynamic workflows 和更便宜的 fast mode 才是信号——前沿竞争正从基准分数转向长程 agentic 任务的可靠性和单位成本吞吐。

Claude Opus 4.8:竞争轴心从基准峰值移到长程可靠性
图 / Anthropic

概述

Claude Opus 4.8 是一次产品化发布,而非智力跃迁。Anthropic 自己把它定性为”对前代温和但实在的提升”,价格与 Opus 4.7 持平,基准分数普遍小涨。真正变动的是模型周围那层东西:claude.ai 现在让用户直接调 Claude 投入的 effort,Claude Code 多了能跑数百个并行子代理的 dynamic workflows,fast mode 在 2.5× 速度之外还比前代便宜了三倍。

把这几件事放在一起,发布稿里最该被划掉的反而是基准表。Anthropic 强调的卖点落在更锐利的 agentic 判断和更高的可靠性上,原始 IQ 反倒退居其次——其中一条硬指标值得记住:官方称 Opus 4.8 放过自己写的代码缺陷的概率,大约是前代的四分之一。这条比任何一个跑分都更贴近生产现场。

这次发布延续了我们在 Opus 4.7 那篇里给出的判断:前沿实验室早已不在比谁能偶尔解出一道难题,比的是谁能把”质量—延迟—成本”这个三角的取舍权稳稳交到开发者手里。4.7 用 xhigh 档把推理深度变成运维参数,4.8 则把 effort 控制推给了所有 claude.ai 用户,又用 dynamic workflows 把”长程”从一次会话拉到了整个代码库的尺度。

发生了什么

Anthropic 在 2026 年 5 月 28 日发布 Claude Opus 4.8,定位为对 Opus 4.7 的全面但增量的升级,同价上线,API 模型名为 claude-opus-4-8。常规用量定价不变:每百万输入 token 5 美元、输出 25 美元;fast mode 为 10 美元 / 50 美元。

同时上线的四件产品改动比模型本身更具体。其一,effort 控制进入 claude.ai 和 Cowork:模型选择器旁边多了一个档位,高档让 Claude 想得更多更深、回答更好,低档则更快、更省用量。Opus 4.8 默认 high,官方称在编码任务上这个默认档花的 token 与 4.7 默认档相当,但表现更好;难任务和长时间异步流程建议用 extra(Claude Code 里叫 xhigh)或 max。其二,dynamic workflows 进入研究预览:Claude 可以先规划,再在单次会话里跑数百个并行子代理,最后核验输出再汇报——官方举的例子是横跨数十万行代码的代码库级迁移,从启动到合并,以现有测试套件为达标线。其三,fast mode 在 2.5× 速度的基础上比前代便宜三倍。其四,Messages API 现在允许在 messages 数组里塞 system 条目,开发者能在任务中途更新指令而不打断 prompt 缓存。

官方那一长串早期测试者背书——Cursor 的 CursorBench、Devin、Databricks Genie、若干法律 agent benchmark——共同点都落在”更会写代码”之外:工具调用更省步骤、引用更准、能跑到收尾、会主动标记输入输出里的问题。这些都是 agent 在无人盯守下连续运行时真正会绊倒的地方。

System Card 里还藏着两条值得单拎的事实。一是上面提过的代码缺陷漏检率降到约四分之一;二是 Anthropic 的对齐团队称 4.8 的失准行为(欺骗、配合滥用)显著低于 4.7,与其最佳对齐模型 Mythos Preview 相当。同时 Anthropic 预告了 Project Glasswing 下的 Mythos 级模型——智能更高,但要更强的网络安全防护才能放开。

为何重要

这次发布把一个趋势钉死了:前沿模型的竞争轴心已经从”基准峰值”挪到”长程 agentic 任务的可靠性和单位成本吞吐”。Anthropic 自己用”温和但实在”来形容能力提升,却把发布的重量压在 effort 控制、并行子代理和便宜三倍的 fast mode 上——这是厂商在用产品语言承认,跑分涨几个点已经换不来生产决策的改变了。

effort 控制推给全体用户,意味着”想多久”正式成了一个用户旋钮,而不只是开发者的隐藏参数。这件事的工程含义比听上去大。一个团队若把日常问答、客服回复、批量分类都默认拉到 max,烧掉的 token 和拖慢的延迟未必换来质量;反过来,把架构评审、棘手并发问题压到低档,又会买到看似完成、实则没核验的输出。Opus 4.8 默认 high、并明说编码场景下 high 与 4.7 默认花费相当,等于在告诉用户:默认档已经够用,真正需要往上加的是少数难任务。这是把 4.7 那条”最高档不总是最优档”的判断做进了产品默认值。

dynamic workflows 则把”长程”的定义往上拽了一档。过去 agent 的可靠性问题集中在一次会话能不能跑完一个多步任务;现在 Anthropic 把目标设成数十万行代码的整库迁移,靠数百个并行子代理加一道输出核验来兜底。这里的关键不是并行本身,而是那道核验和”以现有测试套件为达标线”——它把模型的自我汇报锚在了可执行的客观标准上,而不是又一句包装漂亮的断言。结合代码缺陷漏检率降到四分之一,可以读出 Anthropic 这一代押注的方向:不是让模型更敢下结论,而是让它更少在证据不足时谎报进度。

技术要点

对工程团队最有用的两条,是 effort 控制和 dynamic workflows 各自的真实含义。

effort 控制把推理预算从”凭感觉调温度和 max_tokens”变成了一个一阶档位。它的代价结构是非线性的:高档在难任务上抬成功率,但同样抬延迟、抬 token、有时会想过头。Opus 4.8 默认 high 且明确编码场景下与 4.7 默认花费相当,给了一个有用的锚点——你不该把 max 当成”专业设置”,而该按任务类型给默认值:常规改动用默认 high,长时间异步流程或棘手任务才升 extra。Anthropic 为此提高了 Claude Code 的用量上限以容纳高档的 token 消耗,这本身说明高档不是免费午餐。

dynamic workflows 的工程要点落在那道收尾核验和达标线的设计上,“能跑数百个子代理”只是表象。数百个并行子代理若没有一个客观验收标准,产出的是数百份看似合理却互不一致、难以核查的结果——这恰恰是 agent 在生产里翻车的典型形态,翻车点通常在流程层,而非推理层。Anthropic 用”现有测试套件”当达标线,是把验证建立在可执行的事实上。借此可以引出一条对任何 agent 产品都成立的原则:长程任务的可靠性,约等于你能不能给它一个机器可判定的收尾条件。没有这条线,并行只是在放大不确定性。

至于 Messages API 允许中途插入 system 条目,看着不起眼,却补上了长程 agent 的一个真实痛点:在一次不打断 prompt 缓存的连续运行里,动态更新权限、token 预算或环境上下文。这类接口级改动往往比基准分更影响 agent 能不能稳定跑久。

对建设者的影响

做 agent 产品或重度用 Claude Code 的团队,应该把这次发布当成重新校准默认 effort 的契机,而不是一次无脑切版本。先按任务类型定档:日常重构、文案、小 bug 修复用默认 high,架构重写、并发难题、长时间异步流程才升 extra/max。把哪些任务确实需要更高档记下来,让默认值从经验里长出来——而不是为了”求稳”全程顶满,那只会让长任务在背后悄悄烧光预算。

dynamic workflows 真正可借鉴的,是它对收尾核验的执念;照搬”我也上并行子代理”只是学了个表象。如果你的 agent 要跑长程任务,先问自己:有没有一个机器可判定的达标线(测试套件、类型检查、契约校验、可复现的查询结果)?没有的话,再多的并行和再深的推理都换不来可信的产出。把验收标准做进流程,比追逐模型版本号更能提升可靠性。

成本要进产品体验本身。fast mode 便宜三倍,effort 默认档省 token,这些都把”质量—延迟—成本”的旋钮交到了你手里,但旋钮交出去也意味着责任交出去:你得给长任务设预算、设可见进度、设明确停止条件。这些不是附加件,它们就是可靠性的一部分——这一点和 Opus 4.7 那篇的结论一脉相承。

竞争层面,通用模型厂商会持续抬底座、持续把 effort 和并行编排这类横向能力内置进平台。建设者的差异化仍然落在控制面:更好的任务拆分、更扎实的验收标准、更可预测的成本、更可靠的回滚、更清楚的人工审阅入口。模型涨那几分基准分,护不住任何产品。

该忽略什么

最该忽略的是那一长串厂商背书 benchmark。Cursor 在 CursorBench 上夺冠、某 agent 公司在自家 Super-Agent benchmark 上唯一全通、某法律产品在自家 Legal Agent Benchmark 上破纪录——每一条单独看都漂亮,合起来信噪比却很低,因为它们几乎都是各家在自己私有评测上的主场数据,挑出来印进发布稿的本就是赢的那批。这些数字能告诉你”4.8 在这些场景不差”,但告诉不了你它在你的工作流里值不值得切。HN 上一条高赞说得直白:现有公开基准大多已经饱和成噪音,“上帝来考也高不了多少”。真正该测的是你自己的失败模式。

也别被”全面升级”的笼统措辞和版本号通胀晃了眼。Anthropic 自己都说这是”温和但实在”的提升,并预告了智能更高的 Mythos 级模型还在等安全防护——换句话说 4.8 把 4.7 的产品化又往前推了一步,众人等待的那一跳还在后面。把它当成”又一次值得重测工作流的增量”,而不是”必须立刻全量切换的突破”,更接近实情。

最后,别把官方”诚实度提升”的叙事照单全收。HN 上不少人对 Anthropic”像在野外发现新物种一样谈论自家模型”的措辞起了警惕;r/ClaudeAI 上也有用户反映,反谄媚这条线收紧后,模型在某些场景会显得过度谨慎、反复 equivocate——这正说明同一套行为调校,落到不同工作流里的体感并不一致。代码缺陷漏检率降到四分之一是条可验证的硬指标,值得信;但”更少谎报进度”这类行为改善,最终得靠你自己的核验流程证实,而不是靠发布稿背书,也不是靠社区个例。把自我汇报锚在可执行标准上——这件事的责任,模型升级替你做不了。

来源

  1. Introducing Claude Opus 4.8 / official
  2. Claude Opus 4.8 System Card / official
  3. Claude Opus 4.8 discussion on Hacker News / hn
  4. Claude Opus 4.8 discussion on r/ClaudeAI / reddit