英伟达开源 Cosmos 3:它要做具身智能的安卓,而不是又一个世界模型

开放权重的 omnimodal 物理 AI 模型,真正动机是卡位机器人时代的上游软件栈——把开发者锁进它的工具链。

英伟达开源 Cosmos 3:它要做具身智能的安卓,而不是又一个世界模型
图 / Unsplash

概述

5 月 31 日,英伟达放出了 Cosmos 3:一个面向物理 AI 的开放权重基础模型,把过去要拆成多个模型的三件事——物理推理、世界生成、动作生成——压进了一个模型里。两档 checkpoint:Nano 16B,定位工作站(官方点名 RTX PRO 6000),目标是机器人端的实时推理;Super 64B,数据中心档(Hopper / Blackwell),负责大规模合成数据生成和重推理负载。除了权重,英伟达还一起开源了训练脚本、六个合成数据集、部署工具和评测基准。

架构上,这次的关键词是 Mixture-of-Transformers(MoT)双塔——注意是 MoT 不是 MoE,这点第三方报道专门做了纠正,因为太容易看错。一个塔叫 Reasoner,是个自回归的 VLM,吃图像/视频/文本,负责”先看懂”——理解运动、物体交互、物理上下文,英伟达管它叫”大脑”;另一个塔叫 Generator,扩散式,负责”再生成”——产出符合物理的视频和动作序列,且生成结果以 Reasoner 的理解为条件。官方说了一句很关键的话:Reasoner 可以单独调用,但 Generator 一旦启动就必然同时点亮两个塔。

把这些技术细节先放一边。真正值得花十分钟想清楚的,是英伟达为什么现在、用这种姿态把这套东西开源出来。

这步棋

英伟达卖的从来不只是 GPU,它卖的是”离开它会很难受”。CUDA 在数据中心做到的事,Cosmos 想在机器人和具身智能这一层复刻一遍。

过去做机器人/具身的团队,世界模型这块基本是自己拼:感知一个模型、预测一个模型、策略一个模型,中间用工程胶水编排起来。Cosmos 3 这步棋直接把这条链路收成一个模型——官方原话是”消除多个模型和推理管线之间的编排”。对一线开发者,这话翻译过来就是:你原本要养三套模型、调三套推理栈、写一堆 orchestration 代码,现在英伟达给你一个统一入口。

但统一入口的另一面,是统一的入口归谁所有。Cosmos 3 的生成塔点名”vLLM-omni + NVIDIA Dynamo 上跑到最佳性能”,推理走 NIM 微服务,模型从 NGC 拉,部署优先 NVFP4 量化(英伟达自家 Blackwell 才吃得动的 4-bit 浮点格式,号称 2 倍加速)。开放权重是真的——OpenMDW-1.1,权重能下载、能改、能商用;但围着权重的那一整圈”让它跑得快、跑得省、跑得稳”的东西,牢牢长在英伟达硬件和软件栈上。这才是这步棋的形状:把模型本身让出去当诱饵,把工具链和最优部署路径攥在手里。

真实动机

为什么是开放权重,而不是闭源 API?因为英伟达要的不是这个模型的推理费,是机器人时代的标准地位。

闭源模型(OpenAI、Google 那套打法)赚的是 token 钱,代价是开发者随时能换供应商。但机器人和具身智能现在还没有”事实标准”,谁的世界模型先变成大家默认的起点,谁就拿到了类似安卓在手机时代的位置——系统本身可以开放免费,但生态、分发、最优体验和硬件适配都绕不开你。英伟达把权重、训练脚本、数据集全开出来,就是在抢这个”默认起点”的身份:你做机器人,第一反应是 fork 一个 Cosmos 3 来 post-train,而不是从零自建。

这里有个常被忽略的细节最能说明动机:六个开源数据集是 SDG——合成数据生成数据集,覆盖机器人、自动驾驶、仓储、数字人。再配上 Super 64B 明确定位”大规模合成数据生成”。英伟达在做的,是让”用 Cosmos 生成训练数据 → 训练机器人 → 机器人跑在英伟达硬件上”形成闭环。数据、模型、算力,它想要的是整条价值链都从它这里走一遍。开源在这里不是慈善,是把漏斗口做到最大。

还有评测这一层。英伟达没只发模型,还发了自己的人类评测框架 HUE,理由是”SOTA 视频生成模型已经把现有自动榜刷饱和,版本间分差小到没意义”。这话本身是对的,但顺手定义评测标准的人,也就顺手定义了”什么叫好”。当一个玩家同时提供模型、数据、算力和裁判尺,它在这个领域的话语权就不只是市场份额。

谁被威胁

最直接被挤压的,是卖”世界模型即服务”的初创公司。如果一个开放权重、能商用、还附训练脚本的统一模型摆在那,一家小公司再去卖闭源世界模型 API,价值主张立刻被掏空——客户会问:为什么不直接 post-train 一个免费的 Cosmos?

其次是自动驾驶和机器人里那些自建世界模型的团队。Cosmos 3 把自建门槛拉低了——这对行业整体是好事,但对那些把”我们有自研世界模型”当核心壁垒的公司,壁垒在变薄。官方点名的应用场景(机器人操作、自动驾驶、仓储监控)基本就是在画靶子:这些方向你自己造轮子,性价比越来越说不通。

更微妙的是对其他芯片厂商的威胁。Cosmos 3 越成为机器人开发的默认起点,围着它长出来的最优部署路径就越绑死英伟达硬件(NVFP4、Dynamo、Blackwell)。等于通过软件层,反向加固了硬件护城河。AMD、各家定制芯片想在具身智能这层卡位,要面对的不再只是 CUDA,还多了一个 Cosmos 生态。

谁没被威胁?真正做底层架构创新的团队。MoT 双塔、自回归推理塔加扩散生成塔,这是工程整合上的聪明,不是范式级突破。想在世界模型机理上做出根本不同东西的人,Cosmos 3 不挡路,它只是把”标准做法”这条路修得又宽又平。

该忽略什么

最该杀的一个误读:“世界模型来了,机器人通用智能解决了。“不。

Cosmos 3 是生成式视频世界模型——它擅长的是”在像素和动作序列上,生成物理上看起来合理的未来”。英伟达自己最诚实的地方,恰恰是 HUE 这个评测:他们把生成视频拆成一个个”语义对不对、物理对不对、几何对不对、画面完不完整”的二元是非题来验。换句话说,连英伟达都承认,这些模型会生成”看着像、其实物理不对”的内容,所以才要逐帧抓事实。这恰好戳破了炒作:世界模型生成出一段逼真的机器人抓取视频,不等于真实机器人就能抓起来。视觉可信度和物理正确性是两件事,部署到真机还隔着 sim-to-real 这条没人能轻松跨过的鸿沟。

第二个该忽略的,是”开放权重 = 完全自由、不绑定”的天真。权重确实开放(OpenMDW-1.1),但你越按英伟达给的最优路径走——NIM、Dynamo、NVFP4、NGC——退出成本就越高。开放的是模型,不开放的是”让它真正好用”的那一圈。把”能下载权重”等同于”没有平台风险”,是这次最容易上当的地方。

第三个别被带偏的,是榜单。英伟达列了一长串第一:VANTAGE-Bench、PAI-Bench、R-Bench、Physics-IQ、RoboLab、Artificial Analysis 开源榜第一……漂亮,但其中 TAR 是英伟达新立的榜(还顺便是 AI City Challenge 2026 Track 3 官方榜),HUE 是英伟达自己的评测框架。“在自己定义的尺子上领先”这件事,参考价值要打折。看 Cosmos 3,看它降低了什么门槛、绑定了什么栈,比看它榜上第几名更要紧。

对建设者的影响

如果你在做机器人或具身,务实的判断是:Cosmos 3 值得当起点用,但要带着退出预案用。

短期它实打实降本——不用自己从零训世界模型,合成数据、训练脚本、post-training 配方都现成,Nano 16B 能塞进工作站做实时推理。先用起来跑通流程、攒数据,完全合理。

但有两条线要守住。一是别把推理栈整个押在英伟达专有那套上——能用 vanilla vLLM、标准格式权重的地方,别一上来就锁 NVFP4 + Dynamo,给自己留一条换硬件的路。二是把”我们的护城河”想清楚:如果你的核心价值就是”有个世界模型”,Cosmos 3 之后这条护城河基本没了;真正的壁垒得落在数据(你独有的真机数据)、垂直 know-how、和最后那段 sim-to-real 的工程上——而那段,恰恰是 Cosmos 3 帮不了你的地方。

来源

  1. Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3 / official
  2. nvidia/Cosmos3-Super 模型卡(许可与商用条款) / official