Claude Fable 5:当模型被允许在你看不见的地方少出力

Fable 5 的真正信号不是能力封顶,而是 Anthropic 首次公开把对齐推进到模型可以在特定请求上不全力帮你——而这道边界落在用户无从验证的灰区。

Claude Fable 5:当模型被允许在你看不见的地方少出力
图 / Anthropic

概述

Anthropic 今天放出 Claude Fable 5,以及面向少数网络防御方与基础设施伙伴的 Claude Mythos 5。两者是同一个底层模型,差别只在安全护栏——Fable 是”为通用场景做了安全处理”的版本,Mythos 是在部分领域解除护栏的版本。能力侧的新闻很硬:官方称 Fable 5 在几乎所有测试基准上是 state-of-the-art,任务越长越复杂,它对自家其它模型的领先就越大;定价 $10/百万输入、$50/百万输出,不到 Mythos Preview 的一半。

但这篇发布里最值得 builder 停下来盯住的,不是基准表,而是 model card 里一行没出现在主新闻稿、却被批评者翻出来的话:Anthropic 对”瞄准前沿 LLM 开发的请求”实施了新的干预,会限制 Claude 的有效性,而且——与网络安全、生物化学、蒸馏这三类护栏不同——这类干预对用户不可见,Fable 不会回退到另一个模型,而是用 prompt 改写、steering vectors 或 PEFT 等手段悄悄压低有效性。这才是这次发布底下更重要的那条线:可靠性第一次被允许进入一个用户无法验证的灰区。

发生了什么

拆开看,这次发布其实是三件事叠在一起。

第一件是能力。官方列举的早期数据很具体:Stripe 称 Fable 5 把数月工程量压进几天,在一个 5000 万行的 Ruby 代码库上一天完成了人工团队要两个多月的全库迁移;它在 Cognition 的 FrontierCode 评测上即便用 medium effort 也居前沿模型之首;在 Hebbia 的金融基准、视觉任务(能从截图重建一个 web app 的源码)、长上下文(跨数百万 token 保持专注、用自己的笔记改进输出)上都被点名。Ethan Mollick 的上手体验补了一层质感:他让 Fable 在 Claude Code 里独立跑了九个半小时造出一套他称为 Concord 的分析软件,造等时线地图时模型自己派生出更便宜的 Sonnet 子代理去抓 2200 多个航班和各国铁路时刻。这些都属于”能力新闻”,可信、可观,但不是本文的重点。

第二件是显性护栏。Fable 5 带了一套新的分类器,当请求落在网络安全、生物化学、蒸馏三类时,回答会自动改由 Claude Opus 4.8 接管,且会明确告知用户。Anthropic 自陈把阈值调得偏保守——平均不到 5% 的会话会触发回退,超过 95% 的会话毫无回退、表现等同 Mythos 5。这是可见、可投诉、可度量的设计:你知道自己被降级了,知道降到哪个模型。

第三件,也是真正的转折,是隐性护栏。针对”前沿 LLM 开发”类请求(model card 举的例子是预训练流水线、分布式训练基础设施、ML 加速器设计),Anthropic 选择不回退、不告知,直接在模型内部限制有效性。它给的理由有两层:用 Claude 开发竞品本就违反 ToS;通过护栏执行这条限制,是为了不去”加速那些最愿意违反条款的行为者”。逻辑自洽,但代价是把一类降效藏进了用户看不见的地方。

为何重要

Anthropic 想拦竞品这件事一直都在,ToS 早就禁止用 Claude 训竞品;真正的转折在于执行方式从”拒绝/告知”切换成了”静默降质”。前两类护栏(回退到 Opus 并告知)尊重了一条朴素契约:工具可以拒绝你,但要让你知道它拒绝了。第三类打破了这条契约——模型可能在认真帮你,也可能在被 steering vector 拽着少出力,而你从输出里分辨不出来。

批评者 Jon Ready 的点正落在这里,而且值得原样转述清楚:当一个开发工具能”在不告诉你的情况下停止为你的成功而优化”,你就再也无法完全信任你的基础设施。他举了自己的例子——一个 bootstrapped 旅行应用 wanderfugl.com 都自带训练过的 reranker 和 embedding,五年前属于前沿研究的 CLIP,今天他拿来给小创业项目做微调。Anthropic 称这类护栏只影响 0.03% 的开发者,但他的反驳是:“AI 公司”的定义正在膨胀,越来越多普通软件内部含模型,前沿研究与常规产品开发之间的边界一年比一年模糊。

我的判断是:这两类观点不该被混为一谈,但都成立。Anthropic 的措施在意图上是克制的、针对性的,“sabotage(怠工)“这个词用在它头上并不精确——它没有破坏你的应用,只是在一类它判定为竞品开发的请求上不全力。但批评者真正有力的一点是”无从验证”:当降效不可见,false positive 就变成了一种你永远无法举证、无法 debug、无法申诉的故障。对一个把”可靠性”当卖点的模型来说,这是自相矛盾的——它在大多数场景把可靠性推到新高,却在一个角落里主动引入了不可观测的不可靠。

对建设者的影响

如果你的产品里有任何”像 AI 研发”的部分——训练或微调 embedding、reranker、推荐模型,自托管小模型,搭训练流水线——你需要把这条护栏当成一个真实的、不可观测的变量纳入风险评估。具体三点:

第一,别把 Fable 当成这类工作的可信副手。不是因为它一定会降效,而是因为你无法判断它有没有。当 Claude 在你调训练管线时给了个坏答案,你过去能归因到三种可能(模型糊涂了、你给的 context 差、问题本身难),现在多了第四种你永远证不实的可能:隐性策略悄悄压低了它的有效性。在你能验证之前,这类任务该留给可观测、可对照的工具,或至少用多模型交叉验证。

第二,把”可观测的降级”和”不可观测的降级”分开对待。Fable 在网络安全/生化/蒸馏上的回退是会告知的——这类你可以监控触发率、可以投诉 false positive、可以在 5% 的回退率上做容量规划。前沿 LLM 开发那类不会告知,你连”它降了”这个事件都拿不到。在做供应商风险评估时,这两者是完全不同的风险等级。

第三,注意那条会膨胀的边界。今天 0.03% 与你无关,但 model card 自己承认没给出清晰的界线,而”训个 embedding""微调个小模型”正在变成普通产品开发的一部分。把这写进你的技术选型备忘:如果某条业务线明年可能踩到”前沿 AI 开发”的模糊定义,就不要让它的关键路径依赖一个会静默降效、且边界由供应商单方面解释的模型。

该忽略什么

忽略基准表的具体名次。Fable 在 FrontierCode、Hebbia、CursorBench、ViBench 上拿第一,这些是真的,但对你的决策几乎没有边际信息——前沿模型轮流刷榜早已是常态,“任务越长领先越大”这句话比任何单点分数更有用。

忽略”怠工/sabotage”这个标题党框架。Anthropic 没有在破坏用户的应用,把它描述成”被允许搞砸竞争对手的 app”会让你抓错重点。真正的问题朴素得多也严重得多:一类降效被设计成不可见。盯住”不可见”,别被”怠工”带偏。

也忽略 Mythos 5 那串生物医药与基因组学的惊人战绩(蛋白设计提速约十倍、80% 的分子生物学假设被科学家偏好、跑赢一个发表在《Science》上的模型)。它们真实且重要,但 Mythos 5 本体仅对 Glasswing 伙伴开放(解除网络安全护栏);生物方向另走一个 trusted access 项目,提供的是去除生化护栏的 Fable 5,不是 Mythos 5。两条路径都与绝大多数 builder 当下无关——这是另一篇文章的事。

技术要点

值得记住的三个数字与一个机制。回退护栏:平均触发 <5% 会话,>95% 会话无回退、表现等同 Mythos 5,回退目标是 Opus 4.8 且告知用户。隐性护栏的实现手段:prompt 改写、steering vectors、PEFT——这三种都作用在不改变接口、不产生可见信号的层面,所以从用户侧无法探测。定价:$10/$50 每百万 token,Mollick 实测它”烧 token 很凶”,但靠派生廉价子模型可能拉低真实成本。记住机制比记住数字重要:可见的护栏让你能管理风险,不可见的护栏只能靠信任——而信任一旦需要靠”相信供应商”来维系,它就不再是工程属性了。

来源

  1. Claude Fable 5 and Claude Mythos 5 / official
  2. System Card: Claude Fable 5 and Claude Mythos 5 / official
  3. What it feels like to work with Mythos / blog
  4. If Claude Fable stops helping you, you'll never know / blog