为什么要 omnimodal world model → MoT 双塔 + 双流 joint attention 怎么把"自回归理解"和"扩散生成"缝进同一层 → 多模态时间轴怎么对齐 → 五模态编码器与生成模式 → 训练与三个尺寸 → 开放权重 SOTA。
想象一个家庭机器人,被要求"晚饭后把餐桌收拾干净"。在今天的主流做法里,它得同时调动一整套互不相通的模型:一个 VLM 看懂画面、定位脏盘子、生成计划;一个 VLA 或世界-动作模型把计划翻译成机械臂动作;再来一个 forward dynamics / "world model" 去模拟"这么动一下、世界会变成什么样"以便评估。三四个模型各训各的,接口处反复转换——既次优,又浪费算力。
NVIDIA 在 2026 年 6 月放出的 Cosmos 3 想把这件事翻过来:用一套统一架构,原生覆盖 Physical AI 的全部核心能力。它的副标题叫 Omnimodal World Models for Physical AI——language、image、video、audio、action 五种模态,理解与生成,统统收进同一套网络架构 / 模型家族(按需 post-train 出专用 checkpoint)。让这件事成立的核心架构叫 Mixture-of-Transformers(MoT)。但读完 138 页 technical report 你会发现:MoT 只是骨架,真正把它变成一个能用的 world model 的,是它背后那套结构化数据契约 + rectified-flow 训练课程 + action/transfer 中训 + 大规模系统工程。这篇就沿着这条线,把它们一块块拆开。
以往范式(碎片化):
摄像头 ─► [ VLM ] 看懂场景 / 定位脏盘 / 出计划
│
▼
[ VLA / 世界-动作模型 ] 生成动作序列
│
▼
[ Forward Dynamics / World Model ] 模拟未来、评估后果
—— 三四个互不连通的模型,各训各的,接口处反复转换 ——
Cosmos 3(统一):
language · image · video · audio · action
└─────────────┬─────────────┘
▼
[ 一套 MoT 架构 ]
理解(AR) ──► 生成(Diffusion):每层共享 attention,AR 单向条件 DM
► VLM / 文生图 / 图生视频 / 未来预测 / 世界-动作 …… 同一架构按需 post-train
核心论点:Cosmos 3 的贡献不是"双塔 attention"这一个结构,而是"如何把理解与生成统一进一套可规模化的世界模型"这一整条工程线。沿这条线走:
Physical AI agent 依赖两个深度耦合的能力:理解(understanding)——从部分观测推断潜在状态、语义、动力学;生成(generation)——预测、模拟世界接下来怎么演化,据此判断该做什么动作。report 的论点很尖锐:把这两件事分开做是根本性的局限,因为"理解"本身就要求推理未来演化和动作后果,而"生成"又依赖一个紧凑、结构化的世界与行为表征——它们是同一枚硬币的两面。拆成 VLM、视频生成 / forward dynamics、VLA / WAM 三套独立模型,不仅工程上要反复拼接,还丢掉了"共享表征 + 联合多任务监督"的规模化红利。
所以 Cosmos 3 的核心问题就一句话:能不能设计一个统一、可扩展的模型,原生地把 Physical AI 的全部核心能力都覆盖掉?
Cosmos 3 联合建模五种模态的理解与生成。"action"被当作核心模态而非附属——它是一类专门的 token,把语言推理和视频世界建模接到物理世界可执行的控制信号上。按输入输出配置,同一个基础模型就能切换成不同的"操作模式":VLM、文生图、文 / 图生视频、视频续帧、音视频联合、世界-动作模型。开放权重有 Nano(16B) 和 Super(64B) 两档(Edge 4B 后续放出)。
| 能力 | Cosmos3-Super | Cosmos3-Nano | 对照 |
|---|---|---|---|
| General reasoning | 73.7 | 69.6 | Gemini 3.1 Pro† 77.5 / Qwen3-VL-32B 72.8 |
| Robotics reasoning | 57.8 | 55.1 | Gemini 3.1 Pro† 58.2 |
| Smart infra. reasoning | 62.6 | 61.0 | Gemini 3.1 Pro† 58.6 |
| Driving reasoning | 79.3 | 76.0 | Gemini 3.1 Pro† 47.2 |
| Text-to-Image | 91.36* | 84.61 | Gemini 3 Pro Image† 90.85 |
| Text-to-Video | 80.0 | 79.4 | Veo-3.1† 79.1 / Wan2.2-A14B 78.0 |
| Image-to-Video | 82.8 | 82.7 | Veo-3.1† 82.6 |
| Audio | 7.31 | 7.34 | Veo-3.1† 7.45 |
| FD: Robot | 26.0* | 25.5* | Ctrl-World 23.0 |
| Policy: Robot | — | 39.7* | π₀.₅ 28.1 |
(* = 后训变体;† = 闭源模型。数字摘自 report Table 1。reasoning 共 48 个 benchmark:General 19 / Robotics 17 / Smart infra. 9 / Driving 3。各行来自不同 benchmark / 指标,默认高者更好、但不可跨行横向比较——这里只作 claim map。)
读这张表要分清两件事:(1) 架构统一——同一套 MoT、同一个 Cosmos 3 基础模型家族,能切换所有模态与模式;(2) 具体 SOTA——文生图、图生视频、机器人 policy 的榜单成绩,是在对应尺度的 base checkpoint(Super / Nano)上分别 post-train 出的专用模型(Table 1 中 T2I、FD-Robot、Policy 带 *;图生视频另有专门后训的 Cosmos3-Super-Image2Video 拿下 arena 第一)拿到的,不是一个 checkpoint 通杀。而且 SOTA 有边界——General / Robotics reasoning 仍低于 Gemini 3.1 Pro、Audio 低于 Veo-3.1。Cosmos 3 的卖点是"统一的骨干 + 无需改架构的下游专门化",而非"一个权重打天下"。
看到"Mixture-of-Transformers"容易联想到 Mixture-of-Experts(稀疏路由、激活一部分专家)。完全不是。Cosmos 3 的 MoT 是 dual-tower(双塔):每一层都有两整套参数,一套给"理解"、一套给"生成",按 token 属于哪一段确定性地路由,没有任何稀疏门控。代价是参数量约为底座 dense 模型的 2 倍(4B 来自 2B、16B 来自 8B、64B 来自 32B)。
这里先厘清一点:理解和生成的计算约束不一样。理解侧(AR/Reasoner)处理语言 token 以及 ViT 编码的视觉 token,语言输出按自回归 next-token 预测、走 causal attention;生成侧(图像/视频/音频/动作)是连续 latent 上的扩散 / 流匹配去噪,走 full bidirectional attention。Cosmos 3 选择用双塔把这两条路径的参数解耦——既保留 VLM 的自回归能力,又让生成路径专心学高保真去噪。具体做法:同一条序列、同一个 attention 算子,但两段各用自己的 LayerNorm / 投影 / FFN——结构上分流、attention 里相遇。
除纯语言模式(只激活 AR、不启动 diffusion)外,Cosmos 3 把生成任务都摆成一条 token 序列,分前后两段:AR 子序列(前)装 language token + ViT 编码的 image/video token,以 <EOS> + <BOG> 结尾,负责推理/理解;Diffusion(DM)子序列(后)装 VAE 编码的 image/video + audio + action token,生成时对它们迭代去噪。排列三规则:AR 在前 DM 在后;DM 内 clean 条件 token 在 noisy 目标前;按 vision → audio → action 排。
一条 token 序列:[ AR 子序列 | Diffusion 子序列 ]
语言 + ViT视觉 VAE视觉 + 音频 + 动作
│ │
┌────────────┴────┐ ┌────────┴─────────┐
│ Reasoner 塔 │ │ Generator 塔 │ ← 两套参数
│ (LN / 投影 / FFN)│ │ (LN / 投影 / FFN) │ Nano/Super 从 VLM 初始化(Edge scratch)
└────────┬────────┘ └────────┬─────────┘
└──── 共享同一个 self-attention ────┘
AR:causal,只看 AR 自己 ……………… 保住 VLM 的自回归
DM:full,看 [AR ; DM] ……………… 条件于"理解";但 AR 永不被 DM 更新
│ │
next-token 预测 flow-matching 去噪(预测 velocity)
每层两条 pathway,各有独立 LayerNorm / attention 投影 / FFN:Reasoner 塔处理 AR,Generator 塔处理 DM。两个塔都从预训练 VLM 的权重初始化(已发布的 Nano 底座 Qwen3-VL 8B、Super 底座 Qwen3-VL 32B;Edge 例外,其 dense 2B 底座从 scratch 训),直接继承成熟 VLM 的语言与视觉推理能力,再在此之上学高保真生成。路由完全由"token 在哪一段"决定,无门控网络。
AR token 只 attend AR 内部前序 token,完整保留 VLM 自回归性质:
$$\mathbf{O}_{\text{AR}} = \text{Attn}_{\text{causal}}\big(\mathbf{Q}_{\text{AR}},\ \mathbf{K}_{\text{AR}},\ \mathbf{V}_{\text{AR}}\big)$$看不到后面的 diffusion token——"理解"这条流自包含。
每个 diffusion token 的 K/V 是 AR 与 DM 的并集,自由 attend 文本 prompt 与所有条件/生成 token:
$$\mathbf{O}_{\text{DM}} = \text{Attn}_{\text{full}}\big(\mathbf{Q}_{\text{DM}},\ [\mathbf{K}_{\text{AR}};\mathbf{K}_{\text{DM}}],\ [\mathbf{V}_{\text{AR}};\mathbf{V}_{\text{DM}}]\big)$$"生成"这条流条件于"理解"的全部上下文。
关键的不对称:AR 永远不会被 DM 更新——生成可以看理解,理解看不到生成。这保住了条件通路的因果完整性,还带来两个实际好处:(1) AR 段可独立当 VLM 跑(§4 的 Language 模式);(2) 推理时,对 T2I/T2V/I2V/V2V,Reasoner 的条件输出在所有去噪步里固定不变,可以算一次缓存复用(§9 会讲这个 serving 优化)。
Reasoner = next-token prediction(自回归);Generator = 去噪,实践中用 rectified flow-matching 预测常速度 \(v^\* = \epsilon - x_0\)(§8 给完整形式)。同一个 transformer,每个去噪步调用 Generator 更新 DM latent(启用 CFG 时每步会有两次或更多 forward;生成本身是多步迭代去噪);而对 T2I/T2V/I2V/V2V,Reasoner 的条件输出可在采样开始算一次、跨所有去噪步缓存复用。这比"VLM 吐文本、再喂给独立扩散模型"耦合得更紧,serving 侧也能靠 Reasoner 缓存省掉重复计算。
MoT 之所以"一专多能",关键在于所有任务共用一套 "clean / noisy token 布局"。对一个 latent 视频张量 \(C\times T\times H\times W\),设前 \(T_{\text{cond}}\) 帧是 clean 条件帧(不加噪、不算 loss),后 \(T_{\text{noised}}\) 帧加噪让模型去噪。不同任务只是这个布局的不同 mask:
| 模式 | 布局(clean → noisy) | 说明 |
|---|---|---|
| Language | 只激活 AR | 等价标准 VLM,diffusion 不启动 |
| Text-to-Image | \([\mathbf{S}_{\text{AR}},\ \tilde v_1]\) | T=1,视频的特例 |
| Text-to-Video(+Audio) | \([\mathbf{S}_{\text{AR}},\ \tilde v_{1:N},\ \tilde s]\) | \(T_{\text{cond}}=0\),音频可联合 |
| Image-to-Video | \([\mathbf{S}_{\text{AR}},\ v_1,\ \tilde v_{2:N}]\) | \(T_{\text{cond}}=1\),首帧 clean |
| Video-to-Video | \([\mathbf{S}_{\text{AR}},\ v_{1:2},\ \tilde v_{3:N}]\) | \(T_{\text{cond}}=2\)(前 5 帧 / 前 2 latent 帧) |
| Video transfer | \([\mathbf{S}_{\text{AR}},\ v^{\text{ctrl}}_{1:N},\ \tilde v_{1:N}]\) | control video(edge/depth…)当条件 |
| Action(FD/ID/policy) | 见下图 | 调 clean/noisy 在 video/action 上的分配 |
transfer 同时条件于文本 prompt 和 control video,两者的"保真 vs 控制"最佳点不同。Cosmos 3 用分离权重的 classifier-free guidance:每个去噪步评估三次——(1) 双条件、(2) 仅 prompt(丢掉 control)、(3) 留 control 但 prompt 换成固定负 caption。control 权重把预测从"仅 prompt"推向"双条件"(强化结构控制),text 权重把预测推离"负 prompt"(强化 caption 保真)。比标准单 guidance 更有效。
forward / inverse / policy、T2I / T2V / I2V / V2V、video transfer——在以往是一堆不同模型,在 Cosmos 3 里只是同一个"条件-去噪模板"上 mask 的不同摆法。这是"世界-动作模型"被自然吸收进统一框架的方式。
视频、音频、动作可能不同帧率/采样率同时生成,怎么共享一致的时空位置编码?Cosmos 3 借鉴 Qwen3-VL 的 3D MRoPE,设计带绝对时间索引的版本。每 token 一个 \((t,h,w)\):language 用 \(t=h=w\)(退化成 1D RoPE);video 三轴都变;audio/action 只有 temporal(\(h=w=0\));modality offset \(k\) 隔开文本与视觉的时间范围。
如果让 diffusion token 直接接最后一个 AR token 的时间下标,会因为"最后一个语言 token 和第一帧视觉 token 的时间嵌入几乎一样"而导致初始帧过饱和 / 棋盘伪影(report 说在 Super 这种大模型上尤其明显)。解法是在 AR 与 DM 之间插一个固定 15000 的时间 gap 当缓冲。
定义每秒时间步 TPS——video = fps/4(VAE 时间压 4×)、audio = 48000/1920 ≈ 25、action = 采样频率——用 \(\delta t = \text{TPS}_{\text{base}}/\text{TPS}\)(\(\text{TPS}_{\text{base}}=24/4=6\))把不同帧率对齐到共享物理时间轴。duration 和 FPS 还会写进 prompt,让模型在推理时被"时长/帧率"条件化。
所有模态先经模态特定编码器映射进统一表征空间;非语言模态各加一个可学习的 modality-specific embedding 以便区分。视觉这里有个关键设计——理解和生成用两个不同编码器:
与 VLM 对齐预训练的 ViT(16×16 patch、两层 MLP 合并 2×2 token、DeepStack 聚合、文本-视频时间戳交错)。这个编码器和骨干一起训。
来自 Wan2.2-TI2V-5B 的 video VAE(时间压 4×、空间 32×32),线性层投影到 hidden dim,训练时冻结。音频是 48 kHz 的 audio VAE(约 25 token/秒),也冻结。
更妙的是 action 的统一接口。自动驾驶、相机运动、egocentric human motion(头/手)、单/双臂/人形机器人的控制空间天差地别,Cosmos 3 统一成几个共享几何分量:ego pose + effector pose + grasp state。为避开 embodiment 特有的控制器细节(PID、底层驱动),ego/effector 用状态差分得到的伪动作——对连续 SE(3) 位姿 \(\mathbf{T}_{t-1},\mathbf{T}_t\),运动表示成相对变换 \(\Delta\mathbf{T}_t=\mathbf{T}_{t-1}^{-1}\mathbf{T}_t\),旋转用 6D 表示(预测后经 SVD 还原成 SO(3));grasp state 不取时间差分,直接编码当前夹爪/指尖状态。不同域用各自的投影矩阵 \(\mathbf{W}_{\text{in}}^{(k)}/\mathbf{W}_{\text{out}}^{(k)}\) 映射到共享 latent,逐维归一化到约 \([-1,1]\),骨干共享。
如果只记住一件事:数据契约是 Cosmos 3 能力形成的关键来源之一,分量不亚于架构。report 里数据章节的体量远超架构,且 Reasoner 和 Generator 走两条完全不同的数据线——Reasoner 吃成对的视觉-语言标注数据,Generator 吃大规模多模态语料、用重建式目标。
Reasoner 共约 24.2M 样本(22.0M 预训练 + 2.2M SFT,SFT 里视频-文本占 50% 以强化时空理解)。预训练数据源先过两道关(预训练主混合用阈值 T=2、SFT 用 T=5):
Generator 预训练用 767M 图像(从 7.8B 原始图过滤)+ 347.7M 视频片段(从 3B 原始视频)。5 步流水线:采集预处理 → embedding 去重(先采样 147M 图 / 400M 视频片段各训 2 万 cuML KMeans 簇,再对全量分配簇、按 cosine 做簇内去重)→ 分类 + 基础过滤(47 个层级类别;图按美学打分、滤拼图/水印/白底/NSFW,仅对非文字渲染的合成图再按真实感过滤;视频用 DOVER 美学/技术 + VTSS 三个 0-9 分 + ~100 个二值瑕疵标签)→ 结构化标注 → 按分辨率/时长分片。视频额外做 TransNetV2 场景切分、ffmpeg 去黑边、重编码。
Cosmos 3 不用自由文本 caption,而是结构化 JSON——因为自由文本"精确但不全"(复杂场景漏细节),预定义结构强制系统化覆盖(主体、背景、光照、镜头、运动,加物理变换/物体交互/复杂人体动作字段),提升 recall 同时保 precision。这个设计是后面 §13 prompt upsampling 能把"自由文本 → typed scene program"的根,也是 Generator 能吃"控制程序"的根。
因为两塔结构相同,训练好的 Reasoner 权重直接拿来初始化 Generator,把语义与世界知识迁移进一个会合成像素/音频/动作的模型。Reasoner 预训练有个反直觉发现:不必先单独训 projector、冻 VLM 再对齐——他们直接从预训练一开始联合训练所有部件(而非先训 projector、冻 VLM 的 staged alignment),并用 square-root 归一化的逐 token loss 稳定训练。SFT 用重要性采样 + 1:4 的预训练数据回放防止专门化损害通用能力。到 Generator 阶段,只更新生成相关参数、Reasoner 塔冻结,保住已有的语言与视觉理解。
对任意模态的目标 latent \(x_0\),用直线插值构造含噪 latent,训一个去噪器预测常速度,条件 token(如图生视频的 clean 条件帧)被 mask 出 loss:
$$x_\sigma = \sigma\,\epsilon + (1-\sigma)\,x_0,\qquad v^\* = \epsilon - x_0,\qquad \mathcal{L}=\big\|\,v_\theta(x_\sigma,\sigma,c) - v^\*\big\|^2_{\text{masked}}$$每模态独立采 \(\sigma\):图像/音频/动作用 logit-normal,视频用 mode sampling(视频质量更好)。再用 shift 重参数化把概率质量偏向高噪声(更难)时间步:
$$\sigma = \frac{s\,\bar t}{1+(s-1)\,\bar t},\quad \bar t = 1-t,\quad s\ge 1$$\(s\) 越大越偏高噪。分辨率自适应:预训练 \(s=1/3/5\)(256p/480p/720p),中训进一步抬到 \(s=3/5/10\),以更好处理动态、并减少时间伪影与高分辨率伪影。
Generator 同时训三档分辨率(256p/480p/720p)、5 种宽高比、可变帧数(256p/480p 最多 400 帧,720p 300 帧)。为避免重编译开销、最大化 GPU 利用,用固定 74,000 token 的序列打包:把不同分辨率的变长序列首尾相接填满上下文、无需 padding。四档(image/video-256/480/720)按 1:1:2:1 组 batch。
pre-training ── image / video / audio,学通用生成
│ (pre-training tokens:Nano 31.05T、Super 17.86T——report 原值;
│ Super 每 token 计算更重,token 数≠总算力/模型强弱)
▼
mid-training ── 继续高精度音视频训练,并首次引入 ACTION + VIDEO TRANSFER
│ (混合:Image10% Video32% V+A8% Action25% GeneralTransfer20% DriveTransfer5%;
│ action loss ×10 补归一化动作的小 MSE;shift 抬到 3/5/10)
│ 产出 base:Cosmos3-Nano / Cosmos3-Super
▼
post-training ── 按任务分别专门化(都不改架构):
· Text2Image:两阶段 SFT(20k 步广谱 → 2k 步 470k 超高质偏好精修)
· Image2Video:agentic 检索补弱项,480p/189 帧,~50B tokens
· Robot Policy:DROID 后训 → Cosmos3-Nano-Policy-DROID
这一章是 report 里最"系统论文"的部分,也解释了 Cosmos 3 凭什么能在 GB200 集群上把这么个异构模型训出来。挑几个有代表性的工程点(各行口径不同——含数据 curation 吞吐、启动 / warm-up、训练吞吐、训练时间、serving latency,详见各行):
| 组件 | 解决什么 | 收益 |
|---|---|---|
| SILA 统一 Lance 数据层 | 取代 table-per-pipeline,fragment 级协调 + 租约容错 | 数据 curation 启动 30-60min → ~5min;curation 吞吐 10× |
| JointDataLoader | 跨模态 token 数差 100×,按 token 预算打包;rank 同步选流 + look-ahead 打包 | 选流 +54%、look-ahead 有效序列长 +8% |
| Two-way flat attention | 把 MoT 的 causal(AR) + full(AR;DM) 两种 mask 拆成 2 次 varlen kernel | 对 Nano +22%(vs FlexAttention) |
| Ulysses CP | 上下文并行,2 次 all-to-all/层;比 ring attention 更适合双塔独立分片 | 支撑长序列(CP 上限 = query heads,Nano 32 / Super 64) |
| SAC 选择性激活重算 | 按 FLOPs/显存比保留 attention 输出 | Nano +13%(数值不变) |
| torch.compile | fullgraph + dynamic,融算子 + 处理变长 | Nano Generator +41% |
| Tokenizer AOT 编译 | Wan2.2 VAE 45 个静态图分片到各 rank 编译 | warm-up 15min → <1min |
| 异步 checkpoint | 走独立 Gloo 组、save plan 记忆化 | 开销 -60%,训练时间 Nano -4%/Super -9% |
稳态吞吐(GB200):Nano 507 it/h、520 TFLOPS、MFU 0.23;Super 185 it/h、673 TFLOPS、MFU 0.30——Super 单卡算力利用率反而更高。Serving 侧:Reasoner 走 vLLM / TensorRT-LLM,Generator 走 vLLM-Omni(Cache-DiT / CFG-Parallel / VAE-Patch-Parallel / FP8 量化);加上 §3.3 说的 Reasoner 条件缓存(去噪步间 Reasoner 输出固定、算一次复用);在 PyTorch reference serving 路径里,CUDA Graph replay 让 T2I 提速 30-60%。
"双塔 + 双流 attention"听起来优雅,但真要在 64B 规模、74k token 的异构多模态训练栈下训得动,靠的是数据层、数据加载、attention kernel、并行、重算、编译、checkpoint、serving 一整套协同设计。这部分工作量往往被架构图掩盖,却是"能不能复现"的真正门槛。
三档都用 MoT 双塔(总参数 ≈ 底座 dense 模型的 2 倍):Nano / Super 从预训练 Qwen3-VL 初始化,Edge 的 dense 2B 底座从 scratch 训。
| 变体 | 总参数 | 层数 | Hidden | Attn/KV Heads | FFN | 底座 |
|---|---|---|---|---|---|---|
| Cosmos3-Edge | 4B | 28 | 2,048 | 16 / 8 | 9,216 | 2B dense(scratch,Qwen3-1.7B 风格但去掉 QK norm、改用 ReLU²) |
| Cosmos3-Nano | 16B | 36 | 4,096 | 32 / 8 | 12,288 | Qwen3-VL 8B |
| Cosmos3-Super | 64B | 64 | 5,120 | 64 / 8 | 25,600 | Qwen3-VL 32B |
(Head dim 均 128。Nano/Super 本文发布,Edge 后续 release。数字摘自 report Table 2。)
report 用了一大堆 benchmark,但每个测的"能力"不同,混着看会误读。把它们拆开:
具体亮点(都标清 scope):文生图 UniGenBench 91.36,超过报告中列出的闭源 Gemini 3 Pro Image,arena #1 开放权重;图生视频 PAIBench-G I2V 82.8、Physics-IQ I2V/V2V 都拿开源 SOTA、Human World Bench 71.9(比 Veo-3.1 的 67.8 高 4.1);机器人 policy 见 §12。
一篇 138 页的报告,最该看的不是榜单,而是哪些设计被 ablation 证明真的有用。三条最有说服力:
对比两种初始化:PT-init(从没见过 action 数据的预训练 checkpoint)vs MT-init(见过多域 action 数据的中训 checkpoint)。在新本体 LIBERO-10 上快速适应时差距惊人:
| 后训迭代 | MT-init | PT-init |
|---|---|---|
| 500 步 | 24.6% | 0.0% |
| 1000 步 | 91.4% | 73.8% |
| 2000 步 | 97.4% | 95.2% |
PT-init 在 500 步还是 0%,MT-init 已经 24.6%——action 中训给的不是新架构或额外推理模块,而是在同一套参数里形成了一个可迁移的动作先验,让少量后训就能适配新 embodiment。AV inverse dynamics 也印证:Cosmos3-Super MT-init 的 ATE 0.90m,而通用基线 VGGT 漂到 23.46m、DepthAnything3 9.29m。
把"co-train 哪些 action 域"当混合设计问题,建 transfer 矩阵:对角是单域 baseline、非对角是两域 50/50 混合。结果多为正迁移、但也存在干扰/饱和——例如 WidowX-250 + Google Robot 互训给 FD PSNR +1.39、policy PSNR +2.29;egocentric 预热再训 AgiBot 在后期稳定 +1.3~1.6 PSNR。整体看,forward dynamics / inverse dynamics / policy 共享有用结构:ID 与 policy 受益更明确,FD 则有轻微的重建质量 tradeoff(联合时 PSNR 略降)。
Cosmos3-Nano-Policy-DROID 在 RoboLab-120 的 specific-instruction 设定下拿 Overall 39.7%(每任务 10 次 rollout),超过 π₀.₅(28.1%)和 DreamZero(表格值 23.9%,report 正文误写 25.2%);在 RoboArena 真实世界榜(截至 2026-05-30)以 1870 分排第 1,领先 Spirit v1.6(1785)、DreamZero(1732)。它推理时只用 4 个去噪步、跳过 video-latent 解码,能部署在 2 张 RTX Pro 6000 上、15Hz 输出 32 步关节动作。
普通用户不会写结构化 JSON,但 Generator 吃的是 JSON。中间这层翻译,正是 Reasoner 的实际用武之地(也可由 Claude Opus 4.6 担任)。它不是简单"改写 prompt",而是把自由文本/图+文/视频+文意图,翻成一个受 schema 约束的 typed JSON 场景程序:先想象一个连贯的世界状态/场景布局,再映射成时间推演(事件进程),再推导与可见事件同步的音频线索,最后吐出密集的 typed 规范(实体、空间关系、动作、时序、镜头、音频后果,以及分辨率/宽高比/时长/FPS 等生成控制)。
(1) 让生成 prompt 匹配训练分布(Generator 训练时吃的就是这种结构);(2) 把"prompt 理解"做成一个可独立检查的组件,而不是和渲染模型纠缠在一起。这也回答了"omnimodal 到底统一了什么"——不是简单拼输入模态,而是统一成可条件化的 scene / action / audio 程序。
| 已有路线 | 强在哪 | 缺什么(Cosmos 3 补的) |
|---|---|---|
| VLM(多模态理解) | 看懂、推理 | 不生成物理世界的未来 / 动作 |
| 视频生成 / world simulator | 会生成、画质高 | 多偏 perceptual synthesis;已有 world/action simulator 也常专域化,缺 Cosmos 3 这种 Reasoner+Generator+action/audio 的统一接口 |
| VLA / 世界-动作模型 | 有动作 | 通常不统一 image/video/audio/text |
| omnimodel(理解+生成) | 多模态强 | Physical AI / action / world-modeling 不完整 |
可以这样理解 Cosmos 3 的定位:它不只 multimodal,更是 omni-functional——同一个模型能解释世界、模拟演化、反推观测背后的动作、生成未来观测与动作。把 forward / inverse / policy 当成"同一个序列模型上的条件模式",正是它区别于以上四条路线的关键。
从工程视角看,Cosmos 3 的重心不只在 MoT 这张架构图,更在它背后的整条工程线。MoT 是必要的骨架,但真正让它成为一个可用 world model 的,是下面几条:
总结:MoT 只是骨架;structured data contract + rectified-flow curriculum + action/transfer 中训 + 大规模系统工程,共同把它变成一个可用的 Physical AI world model。
本文为基于 NVIDIA Cosmos 3 technical report(2026-06)的个人深度导读,全部图表、数字均出自该报告,版权归原作者;解读观点仅代表本文作者。报告与权重:github.com/nvidia/cosmos。