2026-06-09

AI 进步在放缓吗:这场 HN 大论战吵错了变量

Zitron 的檄文和 xAI 沦为算力地产的论调点燃了'AI 放缓'之争。两派各有实据,但争的其实不是同一件事——叙事在降温,工程曲线还在走。

概述

6 月 8 日,Ed Zitron 的长文《AI Is Slowing Down》冲上 Hacker News(561 分、591 评),同一天 Martin Alderson 关于 xAI 把算力出租给竞争对手、越来越像数据中心 REIT 的文章也拿到 569 分。两篇合在一起,把一个老问题重新点着了:AI 的进步到底是不是正在放缓?

我的判断是:两派都拿着真数据,但他们其实在争两件不同的事。Zitron 量的是商业回报和资本结构能不能撑住天量算力承诺,这条曲线确实在减速;没放缓派量的是模型在可验证任务上的能力,这条曲线——按 METR 一月底的官方数据看——非但没停,还略有加速。把这两件事混成一句”AI 在放缓”,是这场论战最大的认知错误。对建设者来说,真正该盯的既不是通用智商,也不是融资噪音,而是特定可验证任务的可靠性和单位成本曲线。这条线,目前还在快速往下压。

争的是什么

放缓派的最强论据全是钱。Zitron 把账算得很硬:按 Sightline Climate 的数据,全球规划中的数据中心约 190GW,按黄仁勋自己给的每 GW 800 亿到 1000 亿美元造价,总盘子是 9.5 万亿到 15 万亿美元。要让这些算力不亏成废铁,到 2030 年 AI 服务每年得产生超过 2 万亿美元收入。而现实是 OpenAI 和 Anthropic 加起来占了全行业 AI 创业公司收入的 89%,两家 2026 年合计预计收入约 600 亿美元——离目标差着 496% 的增长。更刺眼的是需求侧在主动收口:Uber 一个季度烧光全年 token 预算后把人均上限压到每月 1500 美元,Brex 把工程师限到每周 500 美元、非工程师每周 5 美元,微软 AI 负责人 Suleyman 公开说要把对 Anthropic 模型的使用降到零。KPMG 的未公开调查里,只有 26% 的公司说自己能完整看清 AI 成本。Zitron 的结论是:当企业开始为真实成本买单、又看不到回报时,收入增速必然放缓,而这个行业恰恰”在最需要加速的时候慢了下来”。

Alderson 的文章从另一个角度补刀。xAI 五月起把老旧的 Colossus 1 数据中心租给 Anthropic(每月 12.5 亿美元、约 300MW、22 万张 GPU),上周又租给谷歌(每月 9.2 亿美元、11 万张 GPU)。一家本该烧钱训练前沿模型的实验室,转头把算力出租给直接竞争对手收租金。Alderson 的判断很冷:xAI 看起来”更像一家挂着前沿实验室招牌的数据中心 REIT,而不是反过来”。Grok 退出前沿竞赛的姿态,被当成”连 Musk 都不再赌模型代际、改去赚地产钱”的信号。

没放缓派的论据则完全在另一个坐标系里。他们指出:基准饱和不等于能力见顶。外行看到 MMLU、GSM8K 这类老基准都刷到天花板,就以为模型不长了,但真正在走的是 agentic、编码、长程推理这些可验证任务的可靠性。METR 一月底发布的 Time Horizon 1.1 给了硬数据:模型能以 50% 成功率独立完成的任务时长,2023 年后的翻倍周期是 130.8 天,比上一版估计的 165.3 天还快了约 20%。换句话说,按这套官方测量,能力曲线不仅没放缓,反而在加速。

谁更有理

两边都没说谎,但谁更有理取决于你问的是哪个问题。

如果问的是”商业模式和资本结构可持续吗”,Zitron 这一侧的证据更硬。他引的不是情绪,是真实的承诺数字和企业行为:几千亿美元的算力对赌、客户主动设上限、CFO 看不清账单。这些都是冷冰冰的减速信号,而且是叙事最不愿承认的那一面。Alderson 的观察同样扎实——xAI 出租算力这件事本身就说明,至少有一家头部玩家判断”出租算力比押注下一代模型更划算”。在”钱”这个维度上,放缓派赢得干净。

但如果问的是”模型能力还在涨吗”,证据天平倒向另一侧。METR 的数据是目前最接近一手测量的能力趋势,它直接反驳了”代际提升边际递减”的直觉。这里有个关键区分:Zitron 说的”放缓”,原文语境指的是收入增速,而非模型能力——他甚至明说要先把模型好不好的判断放一边,真正要谈的是那些已经做出的承诺。把他的金融论证当成”模型不行了”的证据,属于读者的二次误读,并非他的本意。能力没放缓和钱撑不住,可以同时为真。

所以我的裁决是:这不是一方对一方错,而是两条曲线被强行揉成了一句话。**真正值得 builder 行动的结论是,通用智商是否放缓基本不可观测、也不可行动;而特定可验证任务的可靠性与单位成本——这条 METR 在测、你也能在自己的工作流里测——还在快速改善。**放缓叙事的真实价值不在”AI 不行了”,而在”为这轮算力买单的金融结构很脆”。这两件事都对,但别用后者去否定前者。

为何重要

这场争论之所以值得 builder 认真对待,不是因为它能告诉你”AI 行不行”,而是因为两派的结论会把你导向完全相反的资源分配。

信了放缓派,你会冻结预算、推迟把 AI 嵌进核心流程,等”泡沫破了”再进场;信了没放缓派,你会加码采购算力、押注下一代模型一出能力就再上一个台阶。两条路都把整盘筹码压在一个你根本观测不到的宏观变量上。而 Zitron 揭出的脆弱点是真实的:当 26% 的公司才刚能看清自己花了多少钱,所谓”AI 提效”在财务上基本是信仰而非测量,这意味着无论你押哪边,手里都没有能验证赌注的账本。

可行动的一步,是把赌注从宏观挪回局部。METR 的方法论值得照搬到内部:别问”AI 整体变强了吗”,问”在我这个具体的、可验证的任务上,模型这个季度的成功率、单位成本、失败后的恢复成本各是多少”。这条曲线你测得出来,也能据此排路线、定预算。当一个团队能算清模型在某个任务上每季度省了多少钱、可靠性涨了几个点,它就不再需要等这场宏观论战分出胜负——决策的依据从”谁赢”换成了”我这条线在往哪走”。

该忽略什么

第一个该扔掉的噪音,是把单篇檄文的情绪强度当数据强度。Zitron 的文笔锋利、用词暴烈(满篇”paypig""midwit”),这种风格很容易让读者把”作者很确定”误读成”事情很确定”。檄文里真正有分量的是那些承诺数字和企业行为,情绪是包装,不是证据。读它时把脏话和金句剥掉,剩下的账目才是该认真盘的部分。

第二个该忽略的,是把基准饱和当成能力见顶。老基准刷满,只说明这些尺子不够用了,不说明被测对象停了。METR 自己都承认 Time Horizon 1.1 里”最新一代模型几乎找不到做不了的任务”——尺子已经被量满了,该换更长的尺子。把”测不出来了”读成”涨不动了”,是这场论战里最常见的外行误判。

第三个该过滤的,是把融资和估值噪音当技术信号。xAI 出租算力、SpaceX 要 IPO、谷歌是 SpaceX 股东这些事,确实可能掺着财务工程,但 Alderson 自己也强调,算力极度短缺、SpaceX 建数据中心的执行力(Colossus 1 用 122 天建成)是真的竞争优势。一笔交易里同时存在做账动机和真实商业逻辑,这很正常。看到”出租算力”就断定”前沿玩家在撤退”,和看到”翻倍周期 130 天”就断定”AGI 明天到”,是同一种偷懒——都在用一个噪音很大的信号,去回答一个它根本回答不了的问题。

来源

AI Is Slowing Down / blog
xAI is looking more like a datacentre REIT than a frontier lab / blog
AI is slowing down — Hacker News 讨论 / hn
xAI is looking more like a datacentre REIT — Hacker News 讨论 / hn
Time Horizon 1.1 / official