2026-02-17 / models

Claude Sonnet 4.6 让性价比成为前沿

Anthropic 的 Sonnet 4.6 重要,不只是因为能力接近 Opus,而是因为它把前沿能力带到更便宜、更广的工作流。

Claude Sonnet 4.6 让性价比成为前沿
图 / The Context

概述

Claude Sonnet 4.6 的分量,不在于它又比上一代聪明了几分,而在于它改写了”前沿”这个词的含义:前沿不再只是那个最聪明的模型,而是那个足够强、又便宜到能铺到处都用的模型。Anthropic 把 4.6 描述成一次全面升级,编码、操作电脑、长上下文推理、智能体规划、知识工作和设计都往前走了一步,价格却仍守在 Sonnet 这一档。它同时成了免费和 Pro 用户的默认模型。

这个组合把真实的前沿挪了位置。Opus 那一档能在最难的题上赢,可绝大多数真实产品要的不是偶尔的惊艳,而是能规模化跑的高性价比智能。一个行为接近 Opus、却便宜到敢用在日常编码、文档处理、浏览器任务和智能体编排上的模型,撑开的产品空间,很可能比一个强但只敢偶尔用一次的模型更大。

发布里也带着提醒。更好的电脑操作能力、百万 token 上下文、更精致的视觉输出,都不会自动变成可信赖的工作流。社区很快就吵起长上下文到底靠不靠谱、模型人格、指令遵循,以及那些反复出现的视觉套路是不是只是换了张皮的 AI 流水线货。Sonnet 4.6 的价值恰恰在这里:它逼着建设者把成本、质量和品味放在一起评,而不是只盯一个分数。

发生了什么

2026 年 2 月 17 日,Anthropic 发布 Claude Sonnet 4.6,称它是迄今最强的 Sonnet,在编码、操作电脑、长上下文推理、智能体规划、知识工作和设计上都有提升。它带 beta 阶段的百万 token 上下文窗口,并在 claude.ai 和 Claude Cowork 里成为免费、Pro 两档的默认模型。

价格守在 Sonnet 这一档,每百万输入 token 3 美元起、每百万输出 token 15 美元起。Anthropic 说,早期的 Claude Code 用户里约七成更偏好 4.6 而非 4.5,不少场景下甚至更偏好它胜过 Opus 4.5。官方强调它更少谎报成功、更少幻觉、把任务跟到底更稳,也更少把简单事情过度工程化。

这次还重点提了操作电脑。Sonnet 4.6 能通过虚拟鼠标和键盘直接操作真实软件,不靠任何专用接口。Anthropic 说早期用户在复杂表格、多步网页表单这类任务上看到了接近人类的表现,但也老实承认它仍落在熟练的人后面。

为何重要

Sonnet 4.6 之所以重要,是因为决定一个模型能不能被大规模采用的,往往是性价比而不是峰值能力。多数产品里最好用的那个模型,不是能完成一次惊艳演示的,而是能以用户掏得起的价格,把成千上万件普通任务稳稳办下来的。如果 Sonnet 这一档价格现在覆盖了过去非 Opus 不可的许多活,那建设者就该重新设默认走哪条路了。

这会直接改变路由。产品可以把 Opus 留给深推理、高风险审查、跨多个智能体的协调,而把大头的编码、文档理解、浏览器操作和办公自动化交给 Sonnet。AI 系统变得经济,靠的从来不是一个模型包打天下,而是一层懂得”什么时候便宜的智能已经够用”的路由。这层判断做得好不好,往往比换不换更强的模型更影响账单。

这次发布也把操作电脑这件事推成了主流能力。接口当然越来越干净,可现实里大量企业工作流还卡在老软件、电子表格、门户和浏览器界面里。一个能直接用这些界面的模型会大幅降低接入成本——同时也引入新的风险面:注入攻击、误触发的操作、对界面状态的误判。便宜带来的使用量增长,会让这些边角风险被更频繁地撞上。

技术要点

工程上第一条要认的事:所谓”接近前沿”的模型,需要的控制基础设施和顶级模型一模一样。Sonnet 4.6 便宜,但它照样能改代码、操作文档、用浏览器、左右一条工作流。成本一降,用量就涨,用量一涨,撞上边角情况的概率就跟着涨。便宜不等于风险小。

长上下文应该当成一项要测的能力,而不是一个用来做营销的容量数字。百万 token 窗口只有在模型真能在里面检索、推理、规划时才有意义。最危险的误解是以为”把所有东西塞进上下文”就等于模型用上了其中正确的那部分。所以建设者需要的是针对检索、依赖追踪、矛盾处理的专门评测,而不是看窗口标了多大。

设计能力同样要谨慎对待。Anthropic 主打更精致的前端和文档输出,但社区对版式反复雷同的反馈,恰好说明品味这件事交不出去给基座模型。如果大量不同的提示最后都收敛到同一种极简、细线条、两种字体的样子,那模型产出的是视觉上的流畅,未必是设计判断。流畅和判断是两回事。

对建设者的影响

把 Sonnet 这一档设成默认之前,先按任务类型测一遍,别一刀切。它擅长的是成本敏感又重复的活:首遍代码改动、文档信息抽取、表格里的导航、表单填写、生成测试、轻量审查、当智能体里的执行工人。碰到架构上模棱两可、高风险的决策、最终拍板的审查,再升到 Opus 或别的顶级模型。

涉及浏览器和操作电脑,要围着”动作”这一层搭护栏。读取和起草可以低摩擦放过;但提交表单、发消息、改记录、动财务文件,都应该要一次确认。模型会点击,不代表它就该跳过审批。这条边界划在哪,往往决定了一次误操作是小麻烦还是事故。

做设计生成,要补上品味检查这一环。上线前得要求参考约束、产品上下文、可访问性审查,再加人工过目。模型能交出一个漂亮的空壳——好看的版式底下没有信息架构、没有品牌逻辑、没有真正的内容。把空壳当成品发出去,是这类产品最容易踩的坑。

对研究者的影响

Sonnet 4.6 说明,模型评估里该加进”按成本归一化的能力”这一项。一个分数略低、但便宜一大截的模型,创造的真实价值可能更大。所以基准不该只报准确率,还要报每完成一个成功任务的成本、延迟和重试次数——少了这几项,准确率读起来是悬空的。

操作电脑的评测也需要更贴近现实。OSWorld 这类任务有价值,但真实的生产工作流里塞满了弹窗、过期会话、权限报错、前后不一致的界面状态,还有藏在页面里的指令。针对注入攻击的安全评测尤其要紧,因为网页和文档本身就可能夹带对抗性文本,模型一边操作一边就把这些读进去了。

设计评估则要单独立一套纪律。人类偏好很可能奖励”精致”,哪怕输出其实很套路。研究该测的是原创性、约束满足度、可访问性,以及这套设计到底有没有在服务内容,而不只是看上去高级。

社区信号

HN 和 Reddit 的反应摆出了 Sonnet 4.6 的两面。一面,用户注意到低成本下接近 Opus 的能力,尤其在 Claude Code 和办公任务上好用;另一面,他们在追问百万 token 上下文到底在哪些地方能用上、长上下文是不是真的可靠、Sonnet 的输出是不是变得过于统一、是不是被往某一种固定风格上优化过头了。

这正是市场该发出的信号:用户既想要付得起的前沿表现,又越来越在意产品的质感。成本、上下文、可靠性和品味,如今都已经是评一个模型时绕不开的维度,而不再是发布稿之后才想起来的脚注。

该忽略什么

别信”Sonnet 4.6 让 Opus 失去意义”这种话。更靠谱的结论是路由:大多数活用便宜的强模型,只有当那点额外推理真能改变结果时,才动用顶级模型。把 Opus 整个踢掉,丢的恰恰是那些它本该被留着用的场景。

别被一次成型的视觉演示带跑。一个漂亮页面和一个好的产品界面之间,差着信息架构、内容和可用性这些没法在演示里晒出来的东西。

最后,别信那些不说清”到底测的是哪一步”的长上下文宣称。读完一百万 token、从中找到正确的那条事实、再据此做出靠谱的计划,是三种完全不同的能力,被一句”支持百万上下文”糊在一起时,最容易被高估的就是后两种。

来源

  1. Introducing Claude Sonnet 4.6 / official
  2. Claude Sonnet 4.6 discussion on Hacker News / hn
  3. Claude Sonnet 4.6 launch discussion on Reddit / reddit