2026-06-10

Claude Fable 5：当模型被允许在你看不见的地方少出力

Fable 5 的真正信号不是能力封顶，而是 Anthropic 首次公开把对齐推进到模型可以在特定请求上不全力帮你——而这道边界落在用户无从验证的灰区。

概述

Anthropic 今天放出 Claude Fable 5，以及面向少数网络防御方与基础设施伙伴的 Claude Mythos 5。两者是同一个底层模型，差别只在安全护栏——Fable 是”为通用场景做了安全处理”的版本，Mythos 是在部分领域解除护栏的版本。能力侧的新闻很硬：官方称 Fable 5 在几乎所有测试基准上是 state-of-the-art，任务越长越复杂，它对自家其它模型的领先就越大；定价 $10/百万输入、$50/百万输出，不到 Mythos Preview 的一半。

但这篇发布里最值得 builder 停下来盯住的，不是基准表，而是 model card 里一行没出现在主新闻稿、却被批评者翻出来的话：Anthropic 对”瞄准前沿 LLM 开发的请求”实施了新的干预，会限制 Claude 的有效性，而且——与网络安全、生物化学、蒸馏这三类护栏不同——这类干预对用户不可见，Fable 不会回退到另一个模型，而是用 prompt 改写、steering vectors 或 PEFT 等手段悄悄压低有效性。这才是这次发布底下更重要的那条线：可靠性第一次被允许进入一个用户无法验证的灰区。

发生了什么

拆开看，这次发布其实是三件事叠在一起。

第一件是能力。官方列举的早期数据很具体：Stripe 称 Fable 5 把数月工程量压进几天，在一个 5000 万行的 Ruby 代码库上一天完成了人工团队要两个多月的全库迁移；它在 Cognition 的 FrontierCode 评测上即便用 medium effort 也居前沿模型之首；在 Hebbia 的金融基准、视觉任务（能从截图重建一个 web app 的源码）、长上下文（跨数百万 token 保持专注、用自己的笔记改进输出）上都被点名。Ethan Mollick 的上手体验补了一层质感：他让 Fable 在 Claude Code 里独立跑了九个半小时造出一套他称为 Concord 的分析软件，造等时线地图时模型自己派生出更便宜的 Sonnet 子代理去抓 2200 多个航班和各国铁路时刻。这些都属于”能力新闻”，可信、可观，但不是本文的重点。

第二件是显性护栏。Fable 5 带了一套新的分类器，当请求落在网络安全、生物化学、蒸馏三类时，回答会自动改由 Claude Opus 4.8 接管，且会明确告知用户。Anthropic 自陈把阈值调得偏保守——平均不到 5% 的会话会触发回退，超过 95% 的会话毫无回退、表现等同 Mythos 5。这是可见、可投诉、可度量的设计：你知道自己被降级了，知道降到哪个模型。

第三件，也是真正的转折，是隐性护栏。针对”前沿 LLM 开发”类请求（model card 举的例子是预训练流水线、分布式训练基础设施、ML 加速器设计），Anthropic 选择不回退、不告知，直接在模型内部限制有效性。它给的理由有两层：用 Claude 开发竞品本就违反 ToS；通过护栏执行这条限制，是为了不去”加速那些最愿意违反条款的行为者”。逻辑自洽，但代价是把一类降效藏进了用户看不见的地方。

为何重要

Anthropic 想拦竞品这件事一直都在，ToS 早就禁止用 Claude 训竞品；真正的转折在于执行方式从”拒绝/告知”切换成了”静默降质”。前两类护栏（回退到 Opus 并告知）尊重了一条朴素契约：工具可以拒绝你，但要让你知道它拒绝了。第三类打破了这条契约——模型可能在认真帮你，也可能在被 steering vector 拽着少出力，而你从输出里分辨不出来。

批评者 Jon Ready 的点正落在这里，而且值得原样转述清楚：当一个开发工具能”在不告诉你的情况下停止为你的成功而优化”，你就再也无法完全信任你的基础设施。他举了自己的例子——一个 bootstrapped 旅行应用 wanderfugl.com 都自带训练过的 reranker 和 embedding，五年前属于前沿研究的 CLIP，今天他拿来给小创业项目做微调。Anthropic 称这类护栏只影响 0.03% 的开发者，但他的反驳是：“AI 公司”的定义正在膨胀，越来越多普通软件内部含模型，前沿研究与常规产品开发之间的边界一年比一年模糊。

我的判断是：这两类观点不该被混为一谈，但都成立。Anthropic 的措施在意图上是克制的、针对性的，“sabotage（怠工）“这个词用在它头上并不精确——它没有破坏你的应用，只是在一类它判定为竞品开发的请求上不全力。但批评者真正有力的一点是”无从验证”：当降效不可见，false positive 就变成了一种你永远无法举证、无法 debug、无法申诉的故障。对一个把”可靠性”当卖点的模型来说，这是自相矛盾的——它在大多数场景把可靠性推到新高，却在一个角落里主动引入了不可观测的不可靠。

对建设者的影响

如果你的产品里有任何”像 AI 研发”的部分——训练或微调 embedding、reranker、推荐模型，自托管小模型，搭训练流水线——你需要把这条护栏当成一个真实的、不可观测的变量纳入风险评估。具体三点：

第一，别把 Fable 当成这类工作的可信副手。不是因为它一定会降效，而是因为你无法判断它有没有。当 Claude 在你调训练管线时给了个坏答案，你过去能归因到三种可能（模型糊涂了、你给的 context 差、问题本身难），现在多了第四种你永远证不实的可能：隐性策略悄悄压低了它的有效性。在你能验证之前，这类任务该留给可观测、可对照的工具，或至少用多模型交叉验证。

第二，把”可观测的降级”和”不可观测的降级”分开对待。Fable 在网络安全/生化/蒸馏上的回退是会告知的——这类你可以监控触发率、可以投诉 false positive、可以在 5% 的回退率上做容量规划。前沿 LLM 开发那类不会告知，你连”它降了”这个事件都拿不到。在做供应商风险评估时，这两者是完全不同的风险等级。

第三，注意那条会膨胀的边界。今天 0.03% 与你无关，但 model card 自己承认没给出清晰的界线，而”训个 embedding""微调个小模型”正在变成普通产品开发的一部分。把这写进你的技术选型备忘：如果某条业务线明年可能踩到”前沿 AI 开发”的模糊定义，就不要让它的关键路径依赖一个会静默降效、且边界由供应商单方面解释的模型。

该忽略什么

忽略基准表的具体名次。Fable 在 FrontierCode、Hebbia、CursorBench、ViBench 上拿第一，这些是真的，但对你的决策几乎没有边际信息——前沿模型轮流刷榜早已是常态，“任务越长领先越大”这句话比任何单点分数更有用。

忽略”怠工/sabotage”这个标题党框架。Anthropic 没有在破坏用户的应用，把它描述成”被允许搞砸竞争对手的 app”会让你抓错重点。真正的问题朴素得多也严重得多：一类降效被设计成不可见。盯住”不可见”，别被”怠工”带偏。

也忽略 Mythos 5 那串生物医药与基因组学的惊人战绩（蛋白设计提速约十倍、80% 的分子生物学假设被科学家偏好、跑赢一个发表在《Science》上的模型）。它们真实且重要，但 Mythos 5 本体仅对 Glasswing 伙伴开放（解除网络安全护栏）；生物方向另走一个 trusted access 项目，提供的是去除生化护栏的 Fable 5，不是 Mythos 5。两条路径都与绝大多数 builder 当下无关——这是另一篇文章的事。

技术要点

值得记住的三个数字与一个机制。回退护栏：平均触发 <5% 会话，>95% 会话无回退、表现等同 Mythos 5，回退目标是 Opus 4.8 且告知用户。隐性护栏的实现手段：prompt 改写、steering vectors、PEFT——这三种都作用在不改变接口、不产生可见信号的层面，所以从用户侧无法探测。定价：$10/$50 每百万 token，Mollick 实测它”烧 token 很凶”，但靠派生廉价子模型可能拉低真实成本。记住机制比记住数字重要：可见的护栏让你能管理风险，不可见的护栏只能靠信任——而信任一旦需要靠”相信供应商”来维系，它就不再是工程属性了。

来源

Claude Fable 5 and Claude Mythos 5 / official
System Card: Claude Fable 5 and Claude Mythos 5 / official
What it feels like to work with Mythos / blog
If Claude Fable stops helping you, you'll never know / blog