导读 · 基于 NVIDIA Cosmos 3 Technical Report（2026-06）· Omnimodal World Model for Physical AI

Cosmos 3：把"理解"与"生成"缝进一个 Transformer
MoT 架构详解 —— 一个模型统一 VLM / 视频生成 / 世界-动作模型

为什么要 omnimodal world model → MoT 双塔 + 双流 joint attention 怎么把"自回归理解"和"扩散生成"缝进同一层 → 多模态时间轴怎么对齐 → 五模态编码器与生成模式 → 训练与三个尺寸 → 开放权重 SOTA。

解读 by Ruofeng Yang（杨若峰） · Shanghai Jiao Tong University · 2026 · 由 ARIS + ARIS-in-AI-Offer 工作流生成
原报告：NVIDIA，github.com/nvidia/cosmos · 全文图表均出自该 technical report，版权归原作者。

想象一个家庭机器人，被要求"晚饭后把餐桌收拾干净"。在今天的主流做法里，它得同时调动一整套互不相通的模型：一个 VLM 看懂画面、定位脏盘子、生成计划；一个 VLA 或世界-动作模型把计划翻译成机械臂动作；再来一个 forward dynamics / "world model" 去模拟"这么动一下、世界会变成什么样"以便评估。三四个模型各训各的，接口处反复转换——既次优，又浪费算力。

NVIDIA 在 2026 年 6 月放出的 Cosmos 3 想把这件事翻过来：用一套统一架构，原生覆盖 Physical AI 的全部核心能力。它的副标题叫 Omnimodal World Models for Physical AI——language、image、video、audio、action 五种模态，理解与生成，统统收进同一套网络架构 / 模型家族（按需 post-train 出专用 checkpoint）。让这件事成立的核心架构叫 Mixture-of-Transformers（MoT）。但读完 138 页 technical report 你会发现：MoT 只是骨架，真正把它变成一个能用的 world model 的，是它背后那套结构化数据契约 + rectified-flow 训练课程 + action/transfer 中训 + 大规模系统工程。这篇就沿着这条线，把它们一块块拆开。

以往范式（碎片化）：
   摄像头 ─► [ VLM ] 看懂场景 / 定位脏盘 / 出计划
                  │
                  ▼
            [ VLA / 世界-动作模型 ] 生成动作序列
                  │
                  ▼
       [ Forward Dynamics / World Model ] 模拟未来、评估后果
   —— 三四个互不连通的模型，各训各的，接口处反复转换 ——

Cosmos 3（统一）：
   language · image · video · audio · action
          └─────────────┬─────────────┘
                        ▼
                 [ 一套 MoT 架构 ]
       理解(AR) ──► 生成(Diffusion)：每层共享 attention，AR 单向条件 DM
   ► VLM / 文生图 / 图生视频 / 未来预测 / 世界-动作 …… 同一架构按需 post-train

💡 这篇 blog 的主线，和它的 15 节

核心论点：Cosmos 3 的贡献不是"双塔 attention"这一个结构，而是"如何把理解与生成统一进一套可规模化的世界模型"这一整条工程线。沿这条线走：

§1–§2 为什么要 omnimodal world model + 一眼看全貌（一套架构 = 六类模型）。
§3–§6 架构：MoT 双塔 + 双流 joint attention（§3）、统一 token / 生成语法（§4）、3D MRoPE 时间轴（§5）、模态编码器与 action 接口（§6）。
§7–§10 能力从哪来：数据工程（§7，模型能力真正的来源）、训练配方（§8）、规模化训练与 serving（§9）、三个尺寸（§10）。
§11–§14 证据：评测协议而非只看分数（§11）、哪些设计真有 ablation 支撑（§12）、prompt upsampling 实际用法（§13）、与其他路线的定位（§14）。
§15 工程视角的小结。

1 · 为什么需要一个 "omnimodal world model"

Physical AI agent 依赖两个深度耦合的能力：理解（understanding）——从部分观测推断潜在状态、语义、动力学；生成（generation）——预测、模拟世界接下来怎么演化，据此判断该做什么动作。report 的论点很尖锐：把这两件事分开做是根本性的局限，因为"理解"本身就要求推理未来演化和动作后果，而"生成"又依赖一个紧凑、结构化的世界与行为表征——它们是同一枚硬币的两面。拆成 VLM、视频生成 / forward dynamics、VLA / WAM 三套独立模型，不仅工程上要反复拼接，还丢掉了"共享表征 + 联合多任务监督"的规模化红利。

Figure 1: Cosmos 3 作为 Physical AI 的通用骨干 — **Figure 1（来自 report）**：同一套基础模型按输入输出配置即可切换成六类模型——vision-language model、图像生成、音视频生成、policy / 世界-动作模型、forward dynamics、inverse dynamics——**全程无需改架构**。

所以 Cosmos 3 的核心问题就一句话：能不能设计一个统一、可扩展的模型，原生地把 Physical AI 的全部核心能力都覆盖掉？

2 · 一张图看全貌：一套架构 = 六类模型

Cosmos 3 联合建模五种模态的理解与生成。"action"被当作核心模态而非附属——它是一类专门的 token，把语言推理和视频世界建模接到物理世界可执行的控制信号上。按输入输出配置，同一个基础模型就能切换成不同的"操作模式"：VLM、文生图、文 / 图生视频、视频续帧、音视频联合、世界-动作模型。开放权重有 Nano（16B） 和 Super（64B） 两档（Edge 4B 后续放出）。

能力	Cosmos3-Super	Cosmos3-Nano	对照
General reasoning	73.7	69.6	Gemini 3.1 Pro† 77.5 / Qwen3-VL-32B 72.8
Robotics reasoning	57.8	55.1	Gemini 3.1 Pro† 58.2
Smart infra. reasoning	62.6	61.0	Gemini 3.1 Pro† 58.6
Driving reasoning	79.3	76.0	Gemini 3.1 Pro† 47.2
Text-to-Image	91.36*	84.61	Gemini 3 Pro Image† 90.85
Text-to-Video	80.0	79.4	Veo-3.1† 79.1 / Wan2.2-A14B 78.0
Image-to-Video	82.8	82.7	Veo-3.1† 82.6
Audio	7.31	7.34	Veo-3.1† 7.45
FD: Robot	26.0*	25.5*	Ctrl-World 23.0
Policy: Robot	—	39.7*	π₀.₅ 28.1

（* = 后训变体；† = 闭源模型。数字摘自 report Table 1。reasoning 共 48 个 benchmark：General 19 / Robotics 17 / Smart infra. 9 / Driving 3。各行来自不同 benchmark / 指标，默认高者更好、但不可跨行横向比较——这里只作 claim map。）

🎯 takeaway（§2）：一张"claim map"

读这张表要分清两件事：(1) 架构统一——同一套 MoT、同一个 Cosmos 3 基础模型家族，能切换所有模态与模式；(2) 具体 SOTA——文生图、图生视频、机器人 policy 的榜单成绩，是在对应尺度的 base checkpoint（Super / Nano）上分别 post-train 出的专用模型（Table 1 中 T2I、FD-Robot、Policy 带 *；图生视频另有专门后训的 Cosmos3-Super-Image2Video 拿下 arena 第一）拿到的，不是一个 checkpoint 通杀。而且 SOTA 有边界——General / Robotics reasoning 仍低于 Gemini 3.1 Pro、Audio 低于 Veo-3.1。Cosmos 3 的卖点是"统一的骨干 + 无需改架构的下游专门化"，而非"一个权重打天下"。

3 · 架构核心：Mixture-of-Transformers（MoT）

⚠️ 名字陷阱：MoT 不是 sparse MoE

看到"Mixture-of-Transformers"容易联想到 Mixture-of-Experts（稀疏路由、激活一部分专家）。完全不是。Cosmos 3 的 MoT 是 dual-tower（双塔）：每一层都有两整套参数，一套给"理解"、一套给"生成"，按 token 属于哪一段确定性地路由，没有任何稀疏门控。代价是参数量约为底座 dense 模型的 2 倍（4B 来自 2B、16B 来自 8B、64B 来自 32B）。

3.0 为什么要双塔？两条路径的解耦

这里先厘清一点：理解和生成的计算约束不一样。理解侧（AR/Reasoner）处理语言 token 以及 ViT 编码的视觉 token，语言输出按自回归 next-token 预测、走 causal attention；生成侧（图像/视频/音频/动作）是连续 latent 上的扩散 / 流匹配去噪，走 full bidirectional attention。Cosmos 3 选择用双塔把这两条路径的参数解耦——既保留 VLM 的自回归能力，又让生成路径专心学高保真去噪。具体做法：同一条序列、同一个 attention 算子，但两段各用自己的 LayerNorm / 投影 / FFN——结构上分流、attention 里相遇。

Figure 5: MoT 架构 — **Figure 5（来自 report，核心图）**：左——单个 transformer 处理 AR + Diffusion 拼成的一条序列；每个 block 里 AR 与 DM token 各有独立的 LayerNorm 和 MLP，**只在一个共享的 self-attention 算子处相遇**。右——attention mask：AR 是三角 causal，DM 是全 attend。

3.1 一条序列，两个子序列

除纯语言模式（只激活 AR、不启动 diffusion）外，Cosmos 3 把生成任务都摆成一条 token 序列，分前后两段：AR 子序列（前）装 language token + ViT 编码的 image/video token，以 <EOS> + <BOG> 结尾，负责推理/理解；Diffusion（DM）子序列（后）装 VAE 编码的 image/video + audio + action token，生成时对它们迭代去噪。排列三规则：AR 在前 DM 在后；DM 内 clean 条件 token 在 noisy 目标前；按 vision → audio → action 排。

一条 token 序列：[   AR 子序列   |   Diffusion 子序列   ]
                   语言 + ViT视觉      VAE视觉 + 音频 + 动作
                       │                     │
          ┌────────────┴────┐       ┌────────┴─────────┐
          │  Reasoner 塔     │       │  Generator 塔     │  ← 两套参数
          │ (LN / 投影 / FFN)│       │ (LN / 投影 / FFN) │    Nano/Super 从 VLM 初始化(Edge scratch)
          └────────┬────────┘       └────────┬─────────┘
                   └──── 共享同一个 self-attention ────┘
     AR：causal，只看 AR 自己 ……………… 保住 VLM 的自回归
     DM：full，看 [AR ; DM] ……………… 条件于"理解"；但 AR 永不被 DM 更新
                   │                          │
              next-token 预测          flow-matching 去噪（预测 velocity）

3.2 Dual-Tower：两套参数，各管一段

每层两条 pathway，各有独立 LayerNorm / attention 投影 / FFN：Reasoner 塔处理 AR，Generator 塔处理 DM。两个塔都从预训练 VLM 的权重初始化（已发布的 Nano 底座 Qwen3-VL 8B、Super 底座 Qwen3-VL 32B；Edge 例外，其 dense 2B 底座从 scratch 训），直接继承成熟 VLM 的语言与视觉推理能力，再在此之上学高保真生成。路由完全由"token 在哪一段"决定，无门控网络。

3.3 Dual-Stream Joint Attention：两段如何耦合

AR：causal self-attention

AR token 只 attend AR 内部前序 token，完整保留 VLM 自回归性质：

$$\mathbf{O}_{\text{AR}} = \text{Attn}_{\text{causal}}\big(\mathbf{Q}_{\text{AR}},\ \mathbf{K}_{\text{AR}},\ \mathbf{V}_{\text{AR}}\big)$$

看不到后面的 diffusion token——"理解"这条流自包含。

DM：full bidirectional attention

每个 diffusion token 的 K/V 是 AR 与 DM 的并集，自由 attend 文本 prompt 与所有条件/生成 token：

$$\mathbf{O}_{\text{DM}} = \text{Attn}_{\text{full}}\big(\mathbf{Q}_{\text{DM}},\ [\mathbf{K}_{\text{AR}};\mathbf{K}_{\text{DM}}],\ [\mathbf{V}_{\text{AR}};\mathbf{V}_{\text{DM}}]\big)$$

"生成"这条流条件于"理解"的全部上下文。

关键的不对称：AR 永远不会被 DM 更新——生成可以看理解，理解看不到生成。这保住了条件通路的因果完整性，还带来两个实际好处：(1) AR 段可独立当 VLM 跑（§4 的 Language 模式）；(2) 推理时，对 T2I/T2V/I2V/V2V，Reasoner 的条件输出在所有去噪步里固定不变，可以算一次缓存复用（§9 会讲这个 serving 优化）。

3.4 两段的输出目标不同

Reasoner = next-token prediction（自回归）；Generator = 去噪，实践中用 rectified flow-matching 预测常速度 $v^\* = \epsilon - x_0$（§8 给完整形式）。同一个 transformer，每个去噪步调用 Generator 更新 DM latent（启用 CFG 时每步会有两次或更多 forward；生成本身是多步迭代去噪）；而对 T2I/T2V/I2V/V2V，Reasoner 的条件输出可在采样开始算一次、跨所有去噪步缓存复用。这比"VLM 吐文本、再喂给独立扩散模型"耦合得更紧，serving 侧也能靠 Reasoner 缓存省掉重复计算。

4 · 统一的 token / 生成语法：一个模板，七种任务

MoT 之所以"一专多能"，关键在于所有任务共用一套 "clean / noisy token 布局"。对一个 latent 视频张量 $C\times T\times H\times W$，设前 $T_{\text{cond}}$ 帧是 clean 条件帧（不加噪、不算 loss），后 $T_{\text{noised}}$ 帧加噪让模型去噪。不同任务只是这个布局的不同 mask：

模式	布局（clean → noisy）	说明
Language	只激活 AR	等价标准 VLM，diffusion 不启动
Text-to-Image	$[\mathbf{S}_{\text{AR}},\ \tilde v_1]$	T=1，视频的特例
Text-to-Video(+Audio)	$[\mathbf{S}_{\text{AR}},\ \tilde v_{1:N},\ \tilde s]$	$T_{\text{cond}}=0$，音频可联合
Image-to-Video	$[\mathbf{S}_{\text{AR}},\ v_1,\ \tilde v_{2:N}]$	$T_{\text{cond}}=1$，首帧 clean
Video-to-Video	$[\mathbf{S}_{\text{AR}},\ v_{1:2},\ \tilde v_{3:N}]$	$T_{\text{cond}}=2$（前 5 帧 / 前 2 latent 帧）
Video transfer	$[\mathbf{S}_{\text{AR}},\ v^{\text{ctrl}}_{1:N},\ \tilde v_{1:N}]$	control video（edge/depth…）当条件
Action（FD/ID/policy）	见下图	调 clean/noisy 在 video/action 上的分配

Figure 4: 动作序列配置 — **Figure 4（来自 report）**：action 三模式只是 clean/noisy 的不同摆法——**forward dynamics**（条件 clean action、去噪 video = 预测未来画面）、**inverse dynamics**（条件 clean video、去噪 action = 反推动作）、**policy**（同时去噪 video 与 action）。

video transfer 的小心机：two-weight CFG

transfer 同时条件于文本 prompt 和 control video，两者的"保真 vs 控制"最佳点不同。Cosmos 3 用分离权重的 classifier-free guidance：每个去噪步评估三次——(1) 双条件、(2) 仅 prompt（丢掉 control）、(3) 留 control 但 prompt 换成固定负 caption。control 权重把预测从"仅 prompt"推向"双条件"（强化结构控制），text 权重把预测推离"负 prompt"（强化 caption 保真）。比标准单 guidance 更有效。

🎯 takeaway（§4）

forward / inverse / policy、T2I / T2V / I2V / V2V、video transfer——在以往是一堆不同模型，在 Cosmos 3 里只是同一个"条件-去噪模板"上 mask 的不同摆法。这是"世界-动作模型"被自然吸收进统一框架的方式。

5 · 多模态怎么对齐到同一条时间轴：3D MRoPE

视频、音频、动作可能不同帧率/采样率同时生成，怎么共享一致的时空位置编码？Cosmos 3 借鉴 Qwen3-VL 的 3D MRoPE，设计带绝对时间索引的版本。每 token 一个 $(t,h,w)$：language 用 $t=h=w$（退化成 1D RoPE）；video 三轴都变；audio/action 只有 temporal（$h=w=0$）；modality offset $k$ 隔开文本与视觉的时间范围。

Figure 6: 3D MRoPE 坐标分配 — **Figure 6（来自 report）**：坐标分配——language t=h=w，video 三轴都动，audio/action 只 temporal；右图 FPS modulation 把帧索引映射到按真实时长缩放的位置。

AR/DM 之间插 15000 的时间 gap（一个失败模式的修复）

如果让 diffusion token 直接接最后一个 AR token 的时间下标，会因为"最后一个语言 token 和第一帧视觉 token 的时间嵌入几乎一样"而导致初始帧过饱和 / 棋盘伪影（report 说在 Super 这种大模型上尤其明显）。解法是在 AR 与 DM 之间插一个固定 15000 的时间 gap 当缓冲。

FPS modulation：按真实时长而非 token 数

定义每秒时间步 TPS——video = fps/4（VAE 时间压 4×）、audio = 48000/1920 ≈ 25、action = 采样频率——用 $\delta t = \text{TPS}_{\text{base}}/\text{TPS}$（$\text{TPS}_{\text{base}}=24/4=6$）把不同帧率对齐到共享物理时间轴。duration 和 FPS 还会写进 prompt，让模型在推理时被"时长/帧率"条件化。

6 · 模态编码器：理解和生成用不同的眼睛

所有模态先经模态特定编码器映射进统一表征空间；非语言模态各加一个可学习的 modality-specific embedding 以便区分。视觉这里有个关键设计——理解和生成用两个不同编码器：

理解：ViT（联合训练）

与 VLM 对齐预训练的 ViT（16×16 patch、两层 MLP 合并 2×2 token、DeepStack 聚合、文本-视频时间戳交错）。这个编码器和骨干一起训。

生成：VAE（冻结）

来自 Wan2.2-TI2V-5B 的 video VAE（时间压 4×、空间 32×32），线性层投影到 hidden dim，训练时冻结。音频是 48 kHz 的 audio VAE（约 25 token/秒），也冻结。

更妙的是 action 的统一接口。自动驾驶、相机运动、egocentric human motion（头/手）、单/双臂/人形机器人的控制空间天差地别，Cosmos 3 统一成几个共享几何分量：ego pose + effector pose + grasp state。为避开 embodiment 特有的控制器细节（PID、底层驱动），ego/effector 用状态差分得到的伪动作——对连续 SE(3) 位姿 $\mathbf{T}_{t-1},\mathbf{T}_t$，运动表示成相对变换 $\Delta\mathbf{T}_t=\mathbf{T}_{t-1}^{-1}\mathbf{T}_t$，旋转用 6D 表示（预测后经 SVD 还原成 SO(3)）；grasp state 不取时间差分，直接编码当前夹爪/指尖状态。不同域用各自的投影矩阵 $\mathbf{W}_{\text{in}}^{(k)}/\mathbf{W}_{\text{out}}^{(k)}$ 映射到共享 latent，逐维归一化到约 $[-1,1]$，骨干共享。

Figure 3: 统一动作表示 — **Figure 3（来自 report）**：把异构 embodiment 的控制映射成由共享几何分量构成的紧凑动作向量；domain-aware 投影处理不同长度的动作向量，同时保持共享语义空间。

7 · 数据工程：模型能力真正从哪来

如果只记住一件事：数据契约是 Cosmos 3 能力形成的关键来源之一，分量不亚于架构。report 里数据章节的体量远超架构，且 Reasoner 和 Generator 走两条完全不同的数据线——Reasoner 吃成对的视觉-语言标注数据，Generator 吃大规模多模态语料、用重建式目标。

7.1 Reasoner 数据：两步过滤，宁缺毋滥

Reasoner 共约 24.2M 样本（22.0M 预训练 + 2.2M SFT，SFT 里视频-文本占 50% 以强化时空理解）。预训练数据源先过两道关（预训练主混合用阈值 T=2、SFT 用 T=5）：

语义去重：图文/纯文本用 Qwen3-VL-Embedding-8B、视频文本用 PE-Core-G14-448 算联合 embedding，按模态 K-means 聚类后在簇内删余弦相似度 > 0.95 的近重复，剔除 4.23%。
AI-judge 质量过滤：用 Gemma-4-31B-it 当"训练数据审计员"，对 Faithfulness / Completeness / Correctness 三维各打 1-5 分。关键是用 最小值阈值（而非平均）——三维全部达标才保留，任一维严重失败即剔除。阈值越高剪得越狠：预训练用低阈值 T=2（保留 78%）只滤明显错误、保覆盖；SFT 用 高阈值 T=5（保留 46%）只留最高置信监督。

Figure 7: Reasoner 数据构成 — **Figure 7（来自 report）**：Reasoner 数据按能力类别的构成——预训练 22.0M（OCR 占 42.9% 最大，其次 2D grounding、visual QA）与 SFT 2.2M（video reasoning / QA 为主）的两阶段分布对比。

7.2 Generator 数据：从 7.8B 图 / 3B 视频里淘出能用的

Generator 预训练用 767M 图像（从 7.8B 原始图过滤）+ 347.7M 视频片段（从 3B 原始视频）。5 步流水线：采集预处理 → embedding 去重（先采样 147M 图 / 400M 视频片段各训 2 万 cuML KMeans 簇，再对全量分配簇、按 cosine 做簇内去重）→ 分类 + 基础过滤（47 个层级类别；图按美学打分、滤拼图/水印/白底/NSFW，仅对非文字渲染的合成图再按真实感过滤；视频用 DOVER 美学/技术 + VTSS 三个 0-9 分 + ~100 个二值瑕疵标签）→ 结构化标注 → 按分辨率/时长分片。视频额外做 TransNetV2 场景切分、ffmpeg 去黑边、重编码。

Figure 8: Generator 数据课程矩阵 — **Figure 8（来自 report）**：Generator 数据课程矩阵——行是训练模式（文生图 / 视频 / 音视频 / 动作 / transfer），列是 pre-training → mid-training → post-training 三阶段，彩色格标出每个模式在每阶段用的数据量；右侧标注 mid-training 产出 base 模型、post-training 各自产出专用 checkpoint（Text2Image / Image2Video / Nano-Policy-DROID）。

关键设计：结构化 JSON caption（不是普通的"写一段描述"）

Cosmos 3 不用自由文本 caption，而是结构化 JSON——因为自由文本"精确但不全"（复杂场景漏细节），预定义结构强制系统化覆盖（主体、背景、光照、镜头、运动，加物理变换/物体交互/复杂人体动作字段），提升 recall 同时保 precision。这个设计是后面 §13 prompt upsampling 能把"自由文本 → typed scene program"的根，也是 Generator 能吃"控制程序"的根。

7.3 合成数据 + 音频 + 动作

SDG 合成语料（全部开源）补长尾 Physical AI 场景，五个子集：PhyxSim（刚体碰撞/铰接/可变形/流体/光学）、RobotSim（6-8 种机器人本体的操作/移动）、DriveSim（常规 + corner-case 交通）、SynHuman（人体动力学/相机先验/多角色）、Warehouse（人-叉车交互安全）。
音频：预训练保广覆盖（138.9M 带音轨片段），中训建高精度音视频对（18.8M：12.8M 非语音环境音 + 6M 唇音同步语音），靠 SAM-Audio 源分离 + SyncNet 唇同步 + FireRedASR2S 估语音/音乐比 + Qwen3-VL 乐器检测的多级管线，构造用于提升因果 / 同步对齐精度的音视频对。
动作：8.4M episodes、61.3K 小时，四支柱按小时占比——egocentric 67.4%（最大）、AV 16.3%、robotics 8.7%（90.4K 任务/516.7K episodes，跨 AgiBot/Franka/Google Robot 等）、camera motion 7.5%。保留 idle 步（记进 metadata 供下游平衡）；robotics 子集还保留失败 episode（让模型见到 off-nominal 动作效果）。

8 · 训练配方：Reasoner → Generator，三阶段课程

8.1 两阶段：先训理解，再用它初始化生成

因为两塔结构相同，训练好的 Reasoner 权重直接拿来初始化 Generator，把语义与世界知识迁移进一个会合成像素/音频/动作的模型。Reasoner 预训练有个反直觉发现：不必先单独训 projector、冻 VLM 再对齐——他们直接从预训练一开始联合训练所有部件（而非先训 projector、冻 VLM 的 staged alignment），并用 square-root 归一化的逐 token loss 稳定训练。SFT 用重要性采样 + 1:4 的预训练数据回放防止专门化损害通用能力。到 Generator 阶段，只更新生成相关参数、Reasoner 塔冻结，保住已有的语言与视觉理解。

Figure 2: Cosmos 3 作为训练 Physical AI 的强起点 — **Figure 2（来自 report）**：pre-training + mid-training 之后，可在目标数据上 post-train 成合成数据生成器、特定任务 policy，乃至（未来）交互式训练环境，**都不改架构**。

8.2 Generator 的训练目标：rectified flow-matching

对任意模态的目标 latent $x_0$，用直线插值构造含噪 latent，训一个去噪器预测常速度，条件 token（如图生视频的 clean 条件帧）被 mask 出 loss：

$$x_\sigma = \sigma\,\epsilon + (1-\sigma)\,x_0,\qquad v^\* = \epsilon - x_0,\qquad \mathcal{L}=\big\|\,v_\theta(x_\sigma,\sigma,c) - v^\*\big\|^2_{\text{masked}}$$

每模态独立采 $\sigma$：图像/音频/动作用 logit-normal，视频用 mode sampling（视频质量更好）。再用 shift 重参数化把概率质量偏向高噪声（更难）时间步：

$$\sigma = \frac{s\,\bar t}{1+(s-1)\,\bar t},\quad \bar t = 1-t,\quad s\ge 1$$

$s$ 越大越偏高噪。分辨率自适应：预训练 $s=1/3/5$（256p/480p/720p），中训进一步抬到 $s=3/5/10$，以更好处理动态、并减少时间伪影与高分辨率伪影。

8.3 多分辨率 + 74k token packing

Generator 同时训三档分辨率（256p/480p/720p）、5 种宽高比、可变帧数（256p/480p 最多 400 帧，720p 300 帧）。为避免重编译开销、最大化 GPU 利用，用固定 74,000 token 的序列打包：把不同分辨率的变长序列首尾相接填满上下文、无需 padding。四档（image/video-256/480/720）按 1:1:2:1 组 batch。

8.4 三阶段课程

pre-training   ── image / video / audio，学通用生成
   │            （pre-training tokens：Nano 31.05T、Super 17.86T——report 原值；
   │              Super 每 token 计算更重，token 数≠总算力/模型强弱）
   ▼
mid-training   ── 继续高精度音视频训练，并首次引入 ACTION + VIDEO TRANSFER
   │            （混合：Image10% Video32% V+A8% Action25% GeneralTransfer20% DriveTransfer5%；
   │             action loss ×10 补归一化动作的小 MSE；shift 抬到 3/5/10）
   │            产出 base：Cosmos3-Nano / Cosmos3-Super
   ▼
post-training  ── 按任务分别专门化（都不改架构）：
                 · Text2Image：两阶段 SFT（20k 步广谱 → 2k 步 470k 超高质偏好精修）
                 · Image2Video：agentic 检索补弱项，480p/189 帧，~50B tokens
                 · Robot Policy：DROID 后训 → Cosmos3-Nano-Policy-DROID

9 · 规模化训练与 serving：为什么 64B MoT + 74k tokens 训得动

这一章是 report 里最"系统论文"的部分，也解释了 Cosmos 3 凭什么能在 GB200 集群上把这么个异构模型训出来。挑几个有代表性的工程点（各行口径不同——含数据 curation 吞吐、启动 / warm-up、训练吞吐、训练时间、serving latency，详见各行）：

Figure 11: Cosmos 3 基础设施栈 — **Figure 11（来自 report）**：Cosmos 3 基础设施四柱——Data Infrastructure（多模态数据 curation）→ Training Infrastructure（分布式 GPU 训练）→ checkpoint 分两路：Serving Infrastructure（低延迟推理）与 Benchmark Infrastructure（评测回归）。

组件	解决什么	收益
SILA 统一 Lance 数据层	取代 table-per-pipeline，fragment 级协调 + 租约容错	数据 curation 启动 30-60min → ~5min；curation 吞吐 10×
JointDataLoader	跨模态 token 数差 100×，按 token 预算打包；rank 同步选流 + look-ahead 打包	选流 +54%、look-ahead 有效序列长 +8%
Two-way flat attention	把 MoT 的 causal(AR) + full(AR;DM) 两种 mask 拆成 2 次 varlen kernel	对 Nano +22%（vs FlexAttention）
Ulysses CP	上下文并行，2 次 all-to-all/层；比 ring attention 更适合双塔独立分片	支撑长序列（CP 上限 = query heads，Nano 32 / Super 64）
SAC 选择性激活重算	按 FLOPs/显存比保留 attention 输出	Nano +13%（数值不变）
torch.compile	fullgraph + dynamic，融算子 + 处理变长	Nano Generator +41%
Tokenizer AOT 编译	Wan2.2 VAE 45 个静态图分片到各 rank 编译	warm-up 15min → <1min
异步 checkpoint	走独立 Gloo 组、save plan 记忆化	开销 -60%，训练时间 Nano -4%/Super -9%

稳态吞吐（GB200）：Nano 507 it/h、520 TFLOPS、MFU 0.23；Super 185 it/h、673 TFLOPS、MFU 0.30——Super 单卡算力利用率反而更高。Serving 侧：Reasoner 走 vLLM / TensorRT-LLM，Generator 走 vLLM-Omni（Cache-DiT / CFG-Parallel / VAE-Patch-Parallel / FP8 量化）；加上 §3.3 说的 Reasoner 条件缓存（去噪步间 Reasoner 输出固定、算一次复用）；在 PyTorch reference serving 路径里，CUDA Graph replay 让 T2I 提速 30-60%。

🎯 takeaway（§9）

"双塔 + 双流 attention"听起来优雅，但真要在 64B 规模、74k token 的异构多模态训练栈下训得动，靠的是数据层、数据加载、attention kernel、并行、重算、编译、checkpoint、serving 一整套协同设计。这部分工作量往往被架构图掩盖，却是"能不能复现"的真正门槛。

10 · 三个尺寸

三档都用 MoT 双塔（总参数 ≈ 底座 dense 模型的 2 倍）：Nano / Super 从预训练 Qwen3-VL 初始化，Edge 的 dense 2B 底座从 scratch 训。

变体	总参数	层数	Hidden	Attn/KV Heads	FFN	底座
Cosmos3-Edge	4B	28	2,048	16 / 8	9,216	2B dense（scratch，Qwen3-1.7B 风格但去掉 QK norm、改用 ReLU²）
Cosmos3-Nano	16B	36	4,096	32 / 8	12,288	Qwen3-VL 8B
Cosmos3-Super	64B	64	5,120	64 / 8	25,600	Qwen3-VL 32B

（Head dim 均 128。Nano/Super 本文发布，Edge 后续 release。数字摘自 report Table 2。）

11 · 评测：不只看分数，更要看每个 benchmark 测什么

report 用了一大堆 benchmark，但每个测的"能力"不同，混着看会误读。把它们拆开：

Reasoner（48 benchmark：General 19 / Robotics 17 / Smart infra 9 / Driving 3）：General 上仍落后闭源 Gemini 3.1 Pro；在 Smart infra / Driving 超过包括 Gemini 3.1 Pro 在内的开/闭源；Robotics 超过多数模型、但对 Gemini 3.1 Pro 仍有小差距。比前代 Cosmos-Reason2 强，归因于多 20% 预训练数据。
文生图：UniGenBench 不是普通 prompt 集——600 通用 prompt + Cosmos 自加的 570 个 Physical-AI prompt（UniGenBench-Phys），覆盖机器人/工业/标牌文字/驾驶/施工/流体/医疗，MLLM-as-judge 二值打分。CVTG 单独测场景文字渲染（OCR + 匈牙利匹配 + 编辑距离）。
视频生成：PAIBench-G（1044 对、6 域、Quality+Domain 各半）、RBench（650 例、机器人交互的任务正确性 + 物理合理性）、Physics-IQ（396 真实场景、只测物理合理性、I2V/V2V 两种条件）。自动指标分辨力随模型变强而下降，所以加两个人评：Cosmos HUE（原子二值问题、双标注 + QC）和 Human World Bench（egocentric 人体操作）。
音频：Cosmos-SoundBench 把"语义音视频对齐"和"低层音频质量"分开——Cosmos 3 在 SAV/SA/AVAlign（语义对齐）最强，但闭源 Seedance-1.5-Pro 靠更高的 PQ（音频保真）拿下总 AVQ。Cosmos 的差距在音质，不在事件对齐。
transfer：PAIBench-C（单控制：depth/seg/blur/edge）、AVBench-C（HD-map 控制的驾驶）。一个统一 backbone match/超过用 per-modality ControlNet 的 Cosmos-Transfer2.5——说明 ControlNet 分支不是强控制的前提。
机器人 policy：RoboLab-120（120 任务、vague/default/specific 三种指令、simple/moderate/complex 三难度的仿真）+ RoboArena（真实世界众包 A/B 的 Elo 榜）。

Figure 18: T2I arena — **Figure 18**：Cosmos3-Super-Text2Image 在 Artificial Analysis 文生图竞技场是 #1 open-weight（全榜 #4）。

Figure 19: I2V arena — **Figure 19**：Cosmos3-Super-Image2Video 是 #1 open-weight（全榜 #22），与 Veo 3.1 / Wan 2.5 同台。

具体亮点（都标清 scope）：文生图 UniGenBench 91.36，超过报告中列出的闭源 Gemini 3 Pro Image，arena #1 开放权重；图生视频 PAIBench-G I2V 82.8、Physics-IQ I2V/V2V 都拿开源 SOTA、Human World Bench 71.9（比 Veo-3.1 的 67.8 高 4.1）；机器人 policy 见 §12。

12 · Ablations：哪些设计真有证据

一篇 138 页的报告，最该看的不是榜单，而是哪些设计被 ablation 证明真的有用。三条最有说服力：

12.1 统一 action 中训 = 可复用的"动作先验"（MT-init vs PT-init）

对比两种初始化：PT-init（从没见过 action 数据的预训练 checkpoint）vs MT-init（见过多域 action 数据的中训 checkpoint）。在新本体 LIBERO-10 上快速适应时差距惊人：

后训迭代	MT-init	PT-init
500 步	24.6%	0.0%
1000 步	91.4%	73.8%
2000 步	97.4%	95.2%

PT-init 在 500 步还是 0%，MT-init 已经 24.6%——action 中训给的不是新架构或额外推理模块，而是在同一套参数里形成了一个可迁移的动作先验，让少量后训就能适配新 embodiment。AV inverse dynamics 也印证：Cosmos3-Super MT-init 的 ATE 0.90m，而通用基线 VGGT 漂到 23.46m、DepthAnything3 9.29m。

12.2 action 任务间多为正迁移、但有干扰（synergy 研究）

把"co-train 哪些 action 域"当混合设计问题，建 transfer 矩阵：对角是单域 baseline、非对角是两域 50/50 混合。结果多为正迁移、但也存在干扰/饱和——例如 WidowX-250 + Google Robot 互训给 FD PSNR +1.39、policy PSNR +2.29；egocentric 预热再训 AgiBot 在后期稳定 +1.3~1.6 PSNR。整体看，forward dynamics / inverse dynamics / policy 共享有用结构：ID 与 policy 受益更明确，FD 则有轻微的重建质量 tradeoff（联合时 PSNR 略降）。

12.3 机器人 policy：开放权重的真实世界第一

Cosmos3-Nano-Policy-DROID 在 RoboLab-120 的 specific-instruction 设定下拿 Overall 39.7%（每任务 10 次 rollout），超过 π₀.₅（28.1%）和 DreamZero（表格值 23.9%，report 正文误写 25.2%）；在 RoboArena 真实世界榜（截至 2026-05-30）以 1870 分排第 1，领先 Spirit v1.6（1785）、DreamZero（1732）。它推理时只用 4 个去噪步、跳过 video-latent 解码，能部署在 2 张 RTX Pro 6000 上、15Hz 输出 32 步关节动作。

Figure 26: RoboArena #1 — **Figure 26（来自 report）**：Cosmos3-Nano-Policy 在 RoboArena 真实世界 policy 榜单排第 1。

13 · Prompt upsampling：把自由文本翻译成"场景程序"

普通用户不会写结构化 JSON，但 Generator 吃的是 JSON。中间这层翻译，正是 Reasoner 的实际用武之地（也可由 Claude Opus 4.6 担任）。它不是简单"改写 prompt"，而是把自由文本/图+文/视频+文意图，翻成一个受 schema 约束的 typed JSON 场景程序：先想象一个连贯的世界状态/场景布局，再映射成时间推演（事件进程），再推导与可见事件同步的音频线索，最后吐出密集的 typed 规范（实体、空间关系、动作、时序、镜头、音频后果，以及分辨率/宽高比/时长/FPS 等生成控制）。

为什么这层重要

(1) 让生成 prompt 匹配训练分布（Generator 训练时吃的就是这种结构）；(2) 把"prompt 理解"做成一个可独立检查的组件，而不是和渲染模型纠缠在一起。这也回答了"omnimodal 到底统一了什么"——不是简单拼输入模态，而是统一成可条件化的 scene / action / audio 程序。

14 · 定位：Cosmos 3 与四条已有路线的差别

已有路线	强在哪	缺什么（Cosmos 3 补的）
VLM（多模态理解）	看懂、推理	不生成物理世界的未来 / 动作
视频生成 / world simulator	会生成、画质高	多偏 perceptual synthesis；已有 world/action simulator 也常专域化，缺 Cosmos 3 这种 Reasoner+Generator+action/audio 的统一接口
VLA / 世界-动作模型	有动作	通常不统一 image/video/audio/text
omnimodel（理解+生成）	多模态强	Physical AI / action / world-modeling 不完整

可以这样理解 Cosmos 3 的定位：它不只 multimodal，更是 omni-functional——同一个模型能解释世界、模拟演化、反推观测背后的动作、生成未来观测与动作。把 forward / inverse / policy 当成"同一个序列模型上的条件模式"，正是它区别于以上四条路线的关键。

15 · 小结：Cosmos 3 的工程重心在哪

从工程视角看，Cosmos 3 的重心不只在 MoT 这张架构图，更在它背后的整条工程线。MoT 是必要的骨架，但真正让它成为一个可用 world model 的，是下面几条：

统一不是堆叠。MoT 让理解（AR）和生成（DM）在每一层共享 attention、单向耦合——理解的上下文直接成为生成的条件，生成不污染理解。这比"VLM 吐文本喂给独立扩散模型"紧得多。
数据契约与架构同样关键。structured JSON caption + AI-judge 最小阈值过滤 + SDG 合成长尾 + 音视频因果对齐 + 统一 action 表示——这套"数据契约"是模型能力形成的关键工程条件之一，也是 prompt upsampling、控制程序、跨 embodiment 迁移能成立的地基。
action 中训给出可复用的世界先验。LIBERO-10 上 MT-init 500 步 24.6% vs PT-init 0.0%、forward/inverse/policy 多为正迁移（有干扰/饱和）——action 中训在多个 action 域显示出迁移红利（虽仍有干扰 / 饱和），让统一 backbone 成为一个强初始化；它支持"用统一骨干 + 下游专门化替代 VLM+VLA+dynamics 拼装"这个方向，但尚未证明默认范式已被替代。
系统工程是实际门槛。SILA、JointDataLoader、two-way flat attention、Ulysses、SAC、torch.compile、异步 checkpoint、vLLM-Omni——这一长串才是"64B MoT + 74k tokens 异构多模态混训"真能跑起来的原因。

总结：MoT 只是骨架；structured data contract + rectified-flow curriculum + action/transfer 中训 + 大规模系统工程，共同把它变成一个可用的 Physical AI world model。

本文为基于 NVIDIA Cosmos 3 technical report（2026-06）的个人深度导读，全部图表、数字均出自该报告，版权归原作者；解读观点仅代表本文作者。报告与权重：github.com/nvidia/cosmos。