导读 · 基于 NVIDIA Cosmos 3 Technical Report(2026-06)· Omnimodal World Model for Physical AI

Cosmos 3:把"理解"与"生成"缝进一个 Transformer
MoT 架构详解 —— 一个模型统一 VLM / 视频生成 / 世界-动作模型

为什么要 omnimodal world model → MoT 双塔 + 双流 joint attention 怎么把"自回归理解"和"扩散生成"缝进同一层 → 多模态时间轴怎么对齐 → 五模态编码器与生成模式 → 训练与三个尺寸 → 开放权重 SOTA。

解读 by Ruofeng Yang(杨若峰) · Shanghai Jiao Tong University · 2026 · 由 ARIS + ARIS-in-AI-Offer 工作流生成
原报告:NVIDIA,github.com/nvidia/cosmos · 全文图表均出自该 technical report,版权归原作者。

想象一个家庭机器人,被要求"晚饭后把餐桌收拾干净"。在今天的主流做法里,它得同时调动一整套互不相通的模型:一个 VLM 看懂画面、定位脏盘子、生成计划;一个 VLA 或世界-动作模型把计划翻译成机械臂动作;再来一个 forward dynamics / "world model" 去模拟"这么动一下、世界会变成什么样"以便评估。三四个模型各训各的,接口处反复转换——既次优,又浪费算力

NVIDIA 在 2026 年 6 月放出的 Cosmos 3 想把这件事翻过来:用一套统一架构,原生覆盖 Physical AI 的全部核心能力。它的副标题叫 Omnimodal World Models for Physical AI——language、image、video、audio、action 五种模态,理解与生成,统统收进同一套网络架构 / 模型家族(按需 post-train 出专用 checkpoint)。让这件事成立的核心架构叫 Mixture-of-Transformers(MoT)。但读完 138 页 technical report 你会发现:MoT 只是骨架,真正把它变成一个能用的 world model 的,是它背后那套结构化数据契约 + rectified-flow 训练课程 + action/transfer 中训 + 大规模系统工程。这篇就沿着这条线,把它们一块块拆开。

以往范式(碎片化):
   摄像头 ─► [ VLM ] 看懂场景 / 定位脏盘 / 出计划
                  │
                  ▼
            [ VLA / 世界-动作模型 ] 生成动作序列
                  │
                  ▼
       [ Forward Dynamics / World Model ] 模拟未来、评估后果
   —— 三四个互不连通的模型,各训各的,接口处反复转换 ——

Cosmos 3(统一):
   language · image · video · audio · action
          └─────────────┬─────────────┘
                        ▼
                 [ 一套 MoT 架构 ]
       理解(AR) ──► 生成(Diffusion):每层共享 attention,AR 单向条件 DM
   ► VLM / 文生图 / 图生视频 / 未来预测 / 世界-动作 …… 同一架构按需 post-train

💡 这篇 blog 的主线,和它的 15 节

核心论点:Cosmos 3 的贡献不是"双塔 attention"这一个结构,而是"如何把理解与生成统一进一套可规模化的世界模型"这一整条工程线。沿这条线走:

  1. §1–§2 为什么要 omnimodal world model + 一眼看全貌(一套架构 = 六类模型)。
  2. §3–§6 架构:MoT 双塔 + 双流 joint attention(§3)、统一 token / 生成语法(§4)、3D MRoPE 时间轴(§5)、模态编码器与 action 接口(§6)。
  3. §7–§10 能力从哪来:数据工程(§7,模型能力真正的来源)、训练配方(§8)、规模化训练与 serving(§9)、三个尺寸(§10)。
  4. §11–§14 证据:评测协议而非只看分数(§11)、哪些设计真有 ablation 支撑(§12)、prompt upsampling 实际用法(§13)、与其他路线的定位(§14)。
  5. §15 工程视角的小结。

1 · 为什么需要一个 "omnimodal world model"

Physical AI agent 依赖两个深度耦合的能力:理解(understanding)——从部分观测推断潜在状态、语义、动力学;生成(generation)——预测、模拟世界接下来怎么演化,据此判断该做什么动作。report 的论点很尖锐:把这两件事分开做是根本性的局限,因为"理解"本身就要求推理未来演化和动作后果,而"生成"又依赖一个紧凑、结构化的世界与行为表征——它们是同一枚硬币的两面。拆成 VLM、视频生成 / forward dynamics、VLA / WAM 三套独立模型,不仅工程上要反复拼接,还丢掉了"共享表征 + 联合多任务监督"的规模化红利。

Figure 1: Cosmos 3 作为 Physical AI 的通用骨干
Figure 1(来自 report):同一套基础模型按输入输出配置即可切换成六类模型——vision-language model、图像生成、音视频生成、policy / 世界-动作模型、forward dynamics、inverse dynamics——全程无需改架构

所以 Cosmos 3 的核心问题就一句话:能不能设计一个统一、可扩展的模型,原生地把 Physical AI 的全部核心能力都覆盖掉?

2 · 一张图看全貌:一套架构 = 六类模型

Cosmos 3 联合建模五种模态的理解与生成。"action"被当作核心模态而非附属——它是一类专门的 token,把语言推理和视频世界建模接到物理世界可执行的控制信号上。按输入输出配置,同一个基础模型就能切换成不同的"操作模式":VLM、文生图、文 / 图生视频、视频续帧、音视频联合、世界-动作模型。开放权重有 Nano(16B)Super(64B) 两档(Edge 4B 后续放出)。

能力Cosmos3-SuperCosmos3-Nano对照
General reasoning73.769.6Gemini 3.1 Pro† 77.5 / Qwen3-VL-32B 72.8
Robotics reasoning57.855.1Gemini 3.1 Pro† 58.2
Smart infra. reasoning62.661.0Gemini 3.1 Pro† 58.6
Driving reasoning79.376.0Gemini 3.1 Pro† 47.2
Text-to-Image91.36*84.61Gemini 3 Pro Image† 90.85
Text-to-Video80.079.4Veo-3.1† 79.1 / Wan2.2-A14B 78.0
Image-to-Video82.882.7Veo-3.1† 82.6
Audio7.317.34Veo-3.1† 7.45
FD: Robot26.0*25.5*Ctrl-World 23.0
Policy: Robot39.7*π₀.₅ 28.1

(* = 后训变体;† = 闭源模型。数字摘自 report Table 1。reasoning 共 48 个 benchmark:General 19 / Robotics 17 / Smart infra. 9 / Driving 3。各行来自不同 benchmark / 指标,默认高者更好、但不可跨行横向比较——这里只作 claim map。)

🎯 takeaway(§2):一张"claim map"

读这张表要分清两件事:(1) 架构统一——同一套 MoT、同一个 Cosmos 3 基础模型家族,能切换所有模态与模式;(2) 具体 SOTA——文生图、图生视频、机器人 policy 的榜单成绩,是在对应尺度的 base checkpoint(Super / Nano)上分别 post-train 出的专用模型(Table 1 中 T2I、FD-Robot、Policy 带 *;图生视频另有专门后训的 Cosmos3-Super-Image2Video 拿下 arena 第一)拿到的,不是一个 checkpoint 通杀。而且 SOTA 有边界——General / Robotics reasoning 仍低于 Gemini 3.1 Pro、Audio 低于 Veo-3.1。Cosmos 3 的卖点是"统一的骨干 + 无需改架构的下游专门化",而非"一个权重打天下"。

3 · 架构核心:Mixture-of-Transformers(MoT)

⚠️ 名字陷阱:MoT 不是 sparse MoE

看到"Mixture-of-Transformers"容易联想到 Mixture-of-Experts(稀疏路由、激活一部分专家)。完全不是。Cosmos 3 的 MoT 是 dual-tower(双塔):每一层都有两整套参数,一套给"理解"、一套给"生成",按 token 属于哪一段确定性地路由,没有任何稀疏门控。代价是参数量约为底座 dense 模型的 2 倍(4B 来自 2B、16B 来自 8B、64B 来自 32B)。

3.0 为什么要双塔?两条路径的解耦

这里先厘清一点:理解和生成的计算约束不一样。理解侧(AR/Reasoner)处理语言 token 以及 ViT 编码的视觉 token,语言输出按自回归 next-token 预测、走 causal attention生成侧(图像/视频/音频/动作)是连续 latent 上的扩散 / 流匹配去噪,走 full bidirectional attention。Cosmos 3 选择用双塔把这两条路径的参数解耦——既保留 VLM 的自回归能力,又让生成路径专心学高保真去噪。具体做法:同一条序列、同一个 attention 算子,但两段各用自己的 LayerNorm / 投影 / FFN——结构上分流、attention 里相遇。

Figure 5: MoT 架构
Figure 5(来自 report,核心图):左——单个 transformer 处理 AR + Diffusion 拼成的一条序列;每个 block 里 AR 与 DM token 各有独立的 LayerNorm 和 MLP,只在一个共享的 self-attention 算子处相遇。右——attention mask:AR 是三角 causal,DM 是全 attend。

3.1 一条序列,两个子序列

除纯语言模式(只激活 AR、不启动 diffusion)外,Cosmos 3 把生成任务都摆成一条 token 序列,分前后两段:AR 子序列(前)装 language token + ViT 编码的 image/video token,以 <EOS> + <BOG> 结尾,负责推理/理解;Diffusion(DM)子序列(后)装 VAE 编码的 image/video + audio + action token,生成时对它们迭代去噪。排列三规则:AR 在前 DM 在后;DM 内 clean 条件 token 在 noisy 目标前;按 vision → audio → action 排。

一条 token 序列:[   AR 子序列   |   Diffusion 子序列   ]
                   语言 + ViT视觉      VAE视觉 + 音频 + 动作
                       │                     │
          ┌────────────┴────┐       ┌────────┴─────────┐
          │  Reasoner 塔     │       │  Generator 塔     │  ← 两套参数
          │ (LN / 投影 / FFN)│       │ (LN / 投影 / FFN) │    Nano/Super 从 VLM 初始化(Edge scratch)
          └────────┬────────┘       └────────┬─────────┘
                   └──── 共享同一个 self-attention ────┘
     AR:causal,只看 AR 自己 ……………… 保住 VLM 的自回归
     DM:full,看 [AR ; DM] ……………… 条件于"理解";但 AR 永不被 DM 更新
                   │                          │
              next-token 预测          flow-matching 去噪(预测 velocity)

3.2 Dual-Tower:两套参数,各管一段

每层两条 pathway,各有独立 LayerNorm / attention 投影 / FFN:Reasoner 塔处理 AR,Generator 塔处理 DM。两个塔都从预训练 VLM 的权重初始化(已发布的 Nano 底座 Qwen3-VL 8B、Super 底座 Qwen3-VL 32B;Edge 例外,其 dense 2B 底座从 scratch 训),直接继承成熟 VLM 的语言与视觉推理能力,再在此之上学高保真生成。路由完全由"token 在哪一段"决定,无门控网络。

3.3 Dual-Stream Joint Attention:两段如何耦合

AR:causal self-attention

AR token 只 attend AR 内部前序 token,完整保留 VLM 自回归性质:

$$\mathbf{O}_{\text{AR}} = \text{Attn}_{\text{causal}}\big(\mathbf{Q}_{\text{AR}},\ \mathbf{K}_{\text{AR}},\ \mathbf{V}_{\text{AR}}\big)$$

看不到后面的 diffusion token——"理解"这条流自包含

DM:full bidirectional attention

每个 diffusion token 的 K/V 是 AR 与 DM 的并集,自由 attend 文本 prompt 与所有条件/生成 token:

$$\mathbf{O}_{\text{DM}} = \text{Attn}_{\text{full}}\big(\mathbf{Q}_{\text{DM}},\ [\mathbf{K}_{\text{AR}};\mathbf{K}_{\text{DM}}],\ [\mathbf{V}_{\text{AR}};\mathbf{V}_{\text{DM}}]\big)$$

"生成"这条流条件于"理解"的全部上下文。

关键的不对称AR 永远不会被 DM 更新——生成可以看理解,理解看不到生成。这保住了条件通路的因果完整性,还带来两个实际好处:(1) AR 段可独立当 VLM 跑(§4 的 Language 模式);(2) 推理时,对 T2I/T2V/I2V/V2V,Reasoner 的条件输出在所有去噪步里固定不变,可以算一次缓存复用(§9 会讲这个 serving 优化)。

3.4 两段的输出目标不同

Reasoner = next-token prediction(自回归);Generator = 去噪,实践中用 rectified flow-matching 预测常速度 \(v^\* = \epsilon - x_0\)(§8 给完整形式)。同一个 transformer,每个去噪步调用 Generator 更新 DM latent(启用 CFG 时每步会有两次或更多 forward;生成本身是多步迭代去噪);而对 T2I/T2V/I2V/V2V,Reasoner 的条件输出可在采样开始算一次、跨所有去噪步缓存复用。这比"VLM 吐文本、再喂给独立扩散模型"耦合得更紧,serving 侧也能靠 Reasoner 缓存省掉重复计算。

4 · 统一的 token / 生成语法:一个模板,七种任务

MoT 之所以"一专多能",关键在于所有任务共用一套 "clean / noisy token 布局"。对一个 latent 视频张量 \(C\times T\times H\times W\),设前 \(T_{\text{cond}}\) 帧是 clean 条件帧(不加噪、不算 loss),后 \(T_{\text{noised}}\) 帧加噪让模型去噪。不同任务只是这个布局的不同 mask

模式布局(clean → noisy)说明
Language只激活 AR等价标准 VLM,diffusion 不启动
Text-to-Image\([\mathbf{S}_{\text{AR}},\ \tilde v_1]\)T=1,视频的特例
Text-to-Video(+Audio)\([\mathbf{S}_{\text{AR}},\ \tilde v_{1:N},\ \tilde s]\)\(T_{\text{cond}}=0\),音频可联合
Image-to-Video\([\mathbf{S}_{\text{AR}},\ v_1,\ \tilde v_{2:N}]\)\(T_{\text{cond}}=1\),首帧 clean
Video-to-Video\([\mathbf{S}_{\text{AR}},\ v_{1:2},\ \tilde v_{3:N}]\)\(T_{\text{cond}}=2\)(前 5 帧 / 前 2 latent 帧)
Video transfer\([\mathbf{S}_{\text{AR}},\ v^{\text{ctrl}}_{1:N},\ \tilde v_{1:N}]\)control video(edge/depth…)当条件
Action(FD/ID/policy)见下图调 clean/noisy 在 video/action 上的分配
Figure 4: 动作序列配置
Figure 4(来自 report):action 三模式只是 clean/noisy 的不同摆法——forward dynamics(条件 clean action、去噪 video = 预测未来画面)、inverse dynamics(条件 clean video、去噪 action = 反推动作)、policy(同时去噪 video 与 action)。

video transfer 的小心机:two-weight CFG

transfer 同时条件于文本 promptcontrol video,两者的"保真 vs 控制"最佳点不同。Cosmos 3 用分离权重的 classifier-free guidance:每个去噪步评估三次——(1) 双条件、(2) 仅 prompt(丢掉 control)、(3) 留 control 但 prompt 换成固定负 caption。control 权重把预测从"仅 prompt"推向"双条件"(强化结构控制),text 权重把预测推离"负 prompt"(强化 caption 保真)。比标准单 guidance 更有效。

🎯 takeaway(§4)

forward / inverse / policy、T2I / T2V / I2V / V2V、video transfer——在以往是一堆不同模型,在 Cosmos 3 里只是同一个"条件-去噪模板"上 mask 的不同摆法。这是"世界-动作模型"被自然吸收进统一框架的方式。

5 · 多模态怎么对齐到同一条时间轴:3D MRoPE

视频、音频、动作可能不同帧率/采样率同时生成,怎么共享一致的时空位置编码?Cosmos 3 借鉴 Qwen3-VL 的 3D MRoPE,设计带绝对时间索引的版本。每 token 一个 \((t,h,w)\):language 用 \(t=h=w\)(退化成 1D RoPE);video 三轴都变;audio/action 只有 temporal(\(h=w=0\));modality offset \(k\) 隔开文本与视觉的时间范围。

Figure 6: 3D MRoPE 坐标分配
Figure 6(来自 report):坐标分配——language t=h=w,video 三轴都动,audio/action 只 temporal;右图 FPS modulation 把帧索引映射到按真实时长缩放的位置。

AR/DM 之间插 15000 的时间 gap(一个失败模式的修复)

如果让 diffusion token 直接接最后一个 AR token 的时间下标,会因为"最后一个语言 token 和第一帧视觉 token 的时间嵌入几乎一样"而导致初始帧过饱和 / 棋盘伪影(report 说在 Super 这种大模型上尤其明显)。解法是在 AR 与 DM 之间插一个固定 15000 的时间 gap 当缓冲。

FPS modulation:按真实时长而非 token 数

定义每秒时间步 TPS——video = fps/4(VAE 时间压 4×)、audio = 48000/1920 ≈ 25、action = 采样频率——用 \(\delta t = \text{TPS}_{\text{base}}/\text{TPS}\)(\(\text{TPS}_{\text{base}}=24/4=6\))把不同帧率对齐到共享物理时间轴。duration 和 FPS 还会写进 prompt,让模型在推理时被"时长/帧率"条件化。

6 · 模态编码器:理解和生成用不同的眼睛

所有模态先经模态特定编码器映射进统一表征空间;非语言模态各一个可学习的 modality-specific embedding 以便区分。视觉这里有个关键设计——理解和生成用两个不同编码器

理解:ViT(联合训练)

与 VLM 对齐预训练的 ViT(16×16 patch、两层 MLP 合并 2×2 token、DeepStack 聚合、文本-视频时间戳交错)。这个编码器和骨干一起训

生成:VAE(冻结)

来自 Wan2.2-TI2V-5B 的 video VAE(时间压 4×、空间 32×32),线性层投影到 hidden dim,训练时冻结。音频是 48 kHz 的 audio VAE(约 25 token/秒),也冻结。

更妙的是 action 的统一接口。自动驾驶、相机运动、egocentric human motion(头/手)、单/双臂/人形机器人的控制空间天差地别,Cosmos 3 统一成几个共享几何分量:ego pose + effector pose + grasp state。为避开 embodiment 特有的控制器细节(PID、底层驱动),ego/effector 用状态差分得到的伪动作——对连续 SE(3) 位姿 \(\mathbf{T}_{t-1},\mathbf{T}_t\),运动表示成相对变换 \(\Delta\mathbf{T}_t=\mathbf{T}_{t-1}^{-1}\mathbf{T}_t\),旋转用 6D 表示(预测后经 SVD 还原成 SO(3));grasp state 不取时间差分,直接编码当前夹爪/指尖状态。不同域用各自的投影矩阵 \(\mathbf{W}_{\text{in}}^{(k)}/\mathbf{W}_{\text{out}}^{(k)}\) 映射到共享 latent,逐维归一化到约 \([-1,1]\),骨干共享。

Figure 3: 统一动作表示
Figure 3(来自 report):把异构 embodiment 的控制映射成由共享几何分量构成的紧凑动作向量;domain-aware 投影处理不同长度的动作向量,同时保持共享语义空间。

7 · 数据工程:模型能力真正从哪来

如果只记住一件事:数据契约是 Cosmos 3 能力形成的关键来源之一,分量不亚于架构。report 里数据章节的体量远超架构,且 Reasoner 和 Generator 走两条完全不同的数据线——Reasoner 吃成对的视觉-语言标注数据,Generator 吃大规模多模态语料、用重建式目标。

7.1 Reasoner 数据:两步过滤,宁缺毋滥

Reasoner 共约 24.2M 样本(22.0M 预训练 + 2.2M SFT,SFT 里视频-文本占 50% 以强化时空理解)。预训练数据源先过两道关(预训练主混合用阈值 T=2、SFT 用 T=5):

Figure 7: Reasoner 数据构成
Figure 7(来自 report):Reasoner 数据按能力类别的构成——预训练 22.0M(OCR 占 42.9% 最大,其次 2D grounding、visual QA)与 SFT 2.2M(video reasoning / QA 为主)的两阶段分布对比。

7.2 Generator 数据:从 7.8B 图 / 3B 视频里淘出能用的

Generator 预训练用 767M 图像(从 7.8B 原始图过滤)+ 347.7M 视频片段(从 3B 原始视频)。5 步流水线:采集预处理 → embedding 去重(先采样 147M 图 / 400M 视频片段各训 2 万 cuML KMeans 簇,再对全量分配簇、按 cosine 做簇内去重)→ 分类 + 基础过滤(47 个层级类别;图按美学打分、滤拼图/水印/白底/NSFW,仅对非文字渲染的合成图再按真实感过滤;视频用 DOVER 美学/技术 + VTSS 三个 0-9 分 + ~100 个二值瑕疵标签)→ 结构化标注 → 按分辨率/时长分片。视频额外做 TransNetV2 场景切分、ffmpeg 去黑边、重编码。

Figure 8: Generator 数据课程矩阵
Figure 8(来自 report):Generator 数据课程矩阵——行是训练模式(文生图 / 视频 / 音视频 / 动作 / transfer),列是 pre-training → mid-training → post-training 三阶段,彩色格标出每个模式在每阶段用的数据量;右侧标注 mid-training 产出 base 模型、post-training 各自产出专用 checkpoint(Text2Image / Image2Video / Nano-Policy-DROID)。

关键设计:结构化 JSON caption(不是普通的"写一段描述")

Cosmos 3 不用自由文本 caption,而是结构化 JSON——因为自由文本"精确但不全"(复杂场景漏细节),预定义结构强制系统化覆盖(主体、背景、光照、镜头、运动,加物理变换/物体交互/复杂人体动作字段),提升 recall 同时保 precision。这个设计是后面 §13 prompt upsampling 能把"自由文本 → typed scene program"的根,也是 Generator 能吃"控制程序"的根。

7.3 合成数据 + 音频 + 动作

8 · 训练配方:Reasoner → Generator,三阶段课程

8.1 两阶段:先训理解,再用它初始化生成

因为两塔结构相同,训练好的 Reasoner 权重直接拿来初始化 Generator,把语义与世界知识迁移进一个会合成像素/音频/动作的模型。Reasoner 预训练有个反直觉发现:不必先单独训 projector、冻 VLM 再对齐——他们直接从预训练一开始联合训练所有部件(而非先训 projector、冻 VLM 的 staged alignment),并用 square-root 归一化的逐 token loss 稳定训练。SFT 用重要性采样 + 1:4 的预训练数据回放防止专门化损害通用能力。到 Generator 阶段,只更新生成相关参数、Reasoner 塔冻结,保住已有的语言与视觉理解。

Figure 2: Cosmos 3 作为训练 Physical AI 的强起点
Figure 2(来自 report):pre-training + mid-training 之后,可在目标数据上 post-train 成合成数据生成器、特定任务 policy,乃至(未来)交互式训练环境,都不改架构

8.2 Generator 的训练目标:rectified flow-matching

对任意模态的目标 latent \(x_0\),用直线插值构造含噪 latent,训一个去噪器预测常速度,条件 token(如图生视频的 clean 条件帧)被 mask 出 loss:

$$x_\sigma = \sigma\,\epsilon + (1-\sigma)\,x_0,\qquad v^\* = \epsilon - x_0,\qquad \mathcal{L}=\big\|\,v_\theta(x_\sigma,\sigma,c) - v^\*\big\|^2_{\text{masked}}$$

每模态独立采 \(\sigma\):图像/音频/动作用 logit-normal,视频用 mode sampling(视频质量更好)。再用 shift 重参数化把概率质量偏向高噪声(更难)时间步:

$$\sigma = \frac{s\,\bar t}{1+(s-1)\,\bar t},\quad \bar t = 1-t,\quad s\ge 1$$

\(s\) 越大越偏高噪。分辨率自适应:预训练 \(s=1/3/5\)(256p/480p/720p),中训进一步抬到 \(s=3/5/10\),以更好处理动态、并减少时间伪影与高分辨率伪影。

8.3 多分辨率 + 74k token packing

Generator 同时训三档分辨率(256p/480p/720p)、5 种宽高比、可变帧数(256p/480p 最多 400 帧,720p 300 帧)。为避免重编译开销、最大化 GPU 利用,用固定 74,000 token 的序列打包:把不同分辨率的变长序列首尾相接填满上下文、无需 padding。四档(image/video-256/480/720)按 1:1:2:1 组 batch。

8.4 三阶段课程

pre-training   ── image / video / audio,学通用生成
   │            (pre-training tokens:Nano 31.05T、Super 17.86T——report 原值;
   │              Super 每 token 计算更重,token 数≠总算力/模型强弱)
   ▼
mid-training   ── 继续高精度音视频训练,并首次引入 ACTION + VIDEO TRANSFER
   │            (混合:Image10% Video32% V+A8% Action25% GeneralTransfer20% DriveTransfer5%;
   │             action loss ×10 补归一化动作的小 MSE;shift 抬到 3/5/10)
   │            产出 base:Cosmos3-Nano / Cosmos3-Super
   ▼
post-training  ── 按任务分别专门化(都不改架构):
                 · Text2Image:两阶段 SFT(20k 步广谱 → 2k 步 470k 超高质偏好精修)
                 · Image2Video:agentic 检索补弱项,480p/189 帧,~50B tokens
                 · Robot Policy:DROID 后训 → Cosmos3-Nano-Policy-DROID

9 · 规模化训练与 serving:为什么 64B MoT + 74k tokens 训得动

这一章是 report 里最"系统论文"的部分,也解释了 Cosmos 3 凭什么能在 GB200 集群上把这么个异构模型训出来。挑几个有代表性的工程点(各行口径不同——含数据 curation 吞吐、启动 / warm-up、训练吞吐、训练时间、serving latency,详见各行):

Figure 11: Cosmos 3 基础设施栈
Figure 11(来自 report):Cosmos 3 基础设施四柱——Data Infrastructure(多模态数据 curation)→ Training Infrastructure(分布式 GPU 训练)→ checkpoint 分两路:Serving Infrastructure(低延迟推理)与 Benchmark Infrastructure(评测回归)。
组件解决什么收益
SILA 统一 Lance 数据层取代 table-per-pipeline,fragment 级协调 + 租约容错数据 curation 启动 30-60min → ~5min;curation 吞吐 10×
JointDataLoader跨模态 token 数差 100×,按 token 预算打包;rank 同步选流 + look-ahead 打包选流 +54%、look-ahead 有效序列长 +8%
Two-way flat attention把 MoT 的 causal(AR) + full(AR;DM) 两种 mask 拆成 2 次 varlen kernel对 Nano +22%(vs FlexAttention)
Ulysses CP上下文并行,2 次 all-to-all/层;比 ring attention 更适合双塔独立分片支撑长序列(CP 上限 = query heads,Nano 32 / Super 64)
SAC 选择性激活重算按 FLOPs/显存比保留 attention 输出Nano +13%(数值不变)
torch.compilefullgraph + dynamic,融算子 + 处理变长Nano Generator +41%
Tokenizer AOT 编译Wan2.2 VAE 45 个静态图分片到各 rank 编译warm-up 15min → <1min
异步 checkpoint走独立 Gloo 组、save plan 记忆化开销 -60%,训练时间 Nano -4%/Super -9%

稳态吞吐(GB200):Nano 507 it/h、520 TFLOPS、MFU 0.23Super 185 it/h、673 TFLOPS、MFU 0.30——Super 单卡算力利用率反而更高。Serving 侧:Reasoner 走 vLLM / TensorRT-LLM,Generator 走 vLLM-Omni(Cache-DiT / CFG-Parallel / VAE-Patch-Parallel / FP8 量化);加上 §3.3 说的 Reasoner 条件缓存(去噪步间 Reasoner 输出固定、算一次复用);在 PyTorch reference serving 路径里,CUDA Graph replay 让 T2I 提速 30-60%。

🎯 takeaway(§9)

"双塔 + 双流 attention"听起来优雅,但真要在 64B 规模、74k token 的异构多模态训练栈下训得动,靠的是数据层、数据加载、attention kernel、并行、重算、编译、checkpoint、serving 一整套协同设计。这部分工作量往往被架构图掩盖,却是"能不能复现"的真正门槛。

10 · 三个尺寸

三档都用 MoT 双塔(总参数 ≈ 底座 dense 模型的 2 倍):Nano / Super 从预训练 Qwen3-VL 初始化,Edge 的 dense 2B 底座从 scratch 训

变体总参数层数HiddenAttn/KV HeadsFFN底座
Cosmos3-Edge4B282,04816 / 89,2162B dense(scratch,Qwen3-1.7B 风格但去掉 QK norm、改用 ReLU²)
Cosmos3-Nano16B364,09632 / 812,288Qwen3-VL 8B
Cosmos3-Super64B645,12064 / 825,600Qwen3-VL 32B

(Head dim 均 128。Nano/Super 本文发布,Edge 后续 release。数字摘自 report Table 2。)

11 · 评测:不只看分数,更要看每个 benchmark 测什么

report 用了一大堆 benchmark,但每个测的"能力"不同,混着看会误读。把它们拆开:

Figure 18: T2I arena
Figure 18:Cosmos3-Super-Text2Image 在 Artificial Analysis 文生图竞技场是 #1 open-weight(全榜 #4)。
Figure 19: I2V arena
Figure 19:Cosmos3-Super-Image2Video 是 #1 open-weight(全榜 #22),与 Veo 3.1 / Wan 2.5 同台。

具体亮点(都标清 scope):文生图 UniGenBench 91.36,超过报告中列出的闭源 Gemini 3 Pro Image,arena #1 开放权重;图生视频 PAIBench-G I2V 82.8、Physics-IQ I2V/V2V 都拿开源 SOTA、Human World Bench 71.9(比 Veo-3.1 的 67.8 高 4.1);机器人 policy 见 §12。

12 · Ablations:哪些设计真有证据

一篇 138 页的报告,最该看的不是榜单,而是哪些设计被 ablation 证明真的有用。三条最有说服力:

12.1 统一 action 中训 = 可复用的"动作先验"(MT-init vs PT-init)

对比两种初始化:PT-init(从没见过 action 数据的预训练 checkpoint)vs MT-init(见过多域 action 数据的中训 checkpoint)。在新本体 LIBERO-10 上快速适应时差距惊人:

后训迭代MT-initPT-init
500 步24.6%0.0%
1000 步91.4%73.8%
2000 步97.4%95.2%

PT-init 在 500 步还是 0%,MT-init 已经 24.6%——action 中训给的不是新架构或额外推理模块,而是在同一套参数里形成了一个可迁移的动作先验,让少量后训就能适配新 embodiment。AV inverse dynamics 也印证:Cosmos3-Super MT-init 的 ATE 0.90m,而通用基线 VGGT 漂到 23.46m、DepthAnything3 9.29m。

12.2 action 任务间多为正迁移、但有干扰(synergy 研究)

把"co-train 哪些 action 域"当混合设计问题,建 transfer 矩阵:对角是单域 baseline、非对角是两域 50/50 混合。结果多为正迁移、但也存在干扰/饱和——例如 WidowX-250 + Google Robot 互训给 FD PSNR +1.39、policy PSNR +2.29;egocentric 预热再训 AgiBot 在后期稳定 +1.3~1.6 PSNR。整体看,forward dynamics / inverse dynamics / policy 共享有用结构:ID 与 policy 受益更明确,FD 则有轻微的重建质量 tradeoff(联合时 PSNR 略降)。

12.3 机器人 policy:开放权重的真实世界第一

Cosmos3-Nano-Policy-DROID 在 RoboLab-120 的 specific-instruction 设定下拿 Overall 39.7%(每任务 10 次 rollout),超过 π₀.₅(28.1%)和 DreamZero(表格值 23.9%,report 正文误写 25.2%);在 RoboArena 真实世界榜(截至 2026-05-30)以 1870 分排第 1,领先 Spirit v1.6(1785)、DreamZero(1732)。它推理时只用 4 个去噪步、跳过 video-latent 解码,能部署在 2 张 RTX Pro 6000 上、15Hz 输出 32 步关节动作。

Figure 26: RoboArena #1
Figure 26(来自 report):Cosmos3-Nano-Policy 在 RoboArena 真实世界 policy 榜单排第 1。

13 · Prompt upsampling:把自由文本翻译成"场景程序"

普通用户不会写结构化 JSON,但 Generator 吃的是 JSON。中间这层翻译,正是 Reasoner 的实际用武之地(也可由 Claude Opus 4.6 担任)。它不是简单"改写 prompt",而是把自由文本/图+文/视频+文意图,翻成一个受 schema 约束的 typed JSON 场景程序:先想象一个连贯的世界状态/场景布局,再映射成时间推演(事件进程),再推导与可见事件同步的音频线索,最后吐出密集的 typed 规范(实体、空间关系、动作、时序、镜头、音频后果,以及分辨率/宽高比/时长/FPS 等生成控制)。

为什么这层重要

(1) 让生成 prompt 匹配训练分布(Generator 训练时吃的就是这种结构);(2) 把"prompt 理解"做成一个可独立检查的组件,而不是和渲染模型纠缠在一起。这也回答了"omnimodal 到底统一了什么"——不是简单拼输入模态,而是统一成可条件化的 scene / action / audio 程序

14 · 定位:Cosmos 3 与四条已有路线的差别

已有路线强在哪缺什么(Cosmos 3 补的)
VLM(多模态理解)看懂、推理不生成物理世界的未来 / 动作
视频生成 / world simulator会生成、画质高多偏 perceptual synthesis;已有 world/action simulator 也常专域化,缺 Cosmos 3 这种 Reasoner+Generator+action/audio 的统一接口
VLA / 世界-动作模型有动作通常不统一 image/video/audio/text
omnimodel(理解+生成)多模态强Physical AI / action / world-modeling 不完整

可以这样理解 Cosmos 3 的定位:它不只 multimodal,更是 omni-functional——同一个模型能解释世界、模拟演化、反推观测背后的动作、生成未来观测与动作。把 forward / inverse / policy 当成"同一个序列模型上的条件模式",正是它区别于以上四条路线的关键。

15 · 小结:Cosmos 3 的工程重心在哪

从工程视角看,Cosmos 3 的重心不只在 MoT 这张架构图,更在它背后的整条工程线。MoT 是必要的骨架,但真正让它成为一个可用 world model 的,是下面几条:

总结:MoT 只是骨架;structured data contract + rectified-flow curriculum + action/transfer 中训 + 大规模系统工程,共同把它变成一个可用的 Physical AI world model。

本文为基于 NVIDIA Cosmos 3 technical report(2026-06)的个人深度导读,全部图表、数字均出自该报告,版权归原作者;解读观点仅代表本文作者。报告与权重:github.com/nvidia/cosmos