详读 · Cosmos（NVIDIA 面向 Physical AI 的世界基座模型平台）¶

卡片版见卡片-Cosmos。本页是全文精读：动机 → 逐模块方法（数据管线 / tokenizer / 扩散 WFM / 自回归 WFM / 后训练）→ 全量数字表 → 局限 → 外部评价 → 我的判断 → 对我们。来源：arXiv 2501.03575（v3, 2025-07-09）· 作者：NVIDIA（平台架构师 Ming-Yu Liu，贡献者数十人）· 开源 github.com/NVIDIA/Cosmos，权重以 NVIDIA Open Model License 开放（Cosmos-Predict1）。论文很长（75 页），本页抓主干：tokenizer / 扩散与自回归 WFM / 数据管线 / 机器人后训练。

0. 一句话定位¶

Cosmos 不是单个模型，而是一个"世界基座模型（World Foundation Model, WFM）平台"：用海量真实视频预训练一个"会预测未来画面"的通用世界模型，再让开发者用各自机器人/车的小数据后训练成定制世界模型。平台五件套：视频整理管线 + 视频 tokenizer + 预训练 WFM（扩散 & 自回归两族）+ 后训练样例 + 安全护栏。类比：OpenVLA 之于 VLA，Cosmos 想当"世界模型那一层"的可下载底座。

形式化：WFM 是一个函数 𝒲，给定过去观测 x_{0:t}（RGB 视频）+ 当前扰动 c_t（动作 / 文本 / 随机扰动），预测下一帧 x̂_{t+1}。

图1 预训练→后训练范式：一个通用 WFM 基座，用各领域小数据微调成自动驾驶/机械臂/灵巧手/人形等定制世界模型

1. 动机：Physical AI 的数据墙¶

Physical AI＝带传感器+执行器、能观察并改变世界的 AI（机器人、车）。它进展慢，因为采数难且危险：要"观测-动作"交错序列，而探索性动作可能损坏系统/环境。
WFM = 物理世界的数字孪生，让策略可以在"数字世界"里安全交互，绕开真机采数的成本与风险——这是长期梦想的"数据扩展难题"解药。
论文聚焦视觉 WFM：观测是视频，扰动可多种形式。范式 = 先预训练（通才）→ 后训练（专才）。

WFM 对开发者的 5 类用途（论文只列举、未做实证，明确说留待 future work）： 1. 策略评估：在 WFM 里跑策略，比真机便宜快；能在不可得的环境里测；快速淘汰差策略。 2. 策略初始化：WFM 学到的世界动态可当策略的好初始化，缓解数据稀缺。 3. 策略训练：WFM + 奖励模型 = 强化学习的环境代理。 4. 规划 / MPC：模拟不同动作序列的未来，挑最优执行（WFM 精度上界=决策上界）。 5. 合成数据生成：生成训练数据；可条件化于深度/语义图做 Sim2Real。

2. 数据整理管线（Sec.3）¶

数据决定模型天花板。管线 5 步：切分 → 过滤 → 标注 → 去重 → 分片。

图5 视频整理五步管线：Split（含镜头检测+GPU转码）→ Filtering（运动/质量/叠字/类型）→ Annotation（VLM 生成描述）→ 视频片库 → Dedup → Sharding

原始库：约 20M 小时原始视频（720p–4k）→ 切出约 10⁸（≈1亿）个 2–60s 片段用于预训练，约 10⁷ 用于微调。
切分：镜头边界检测，对比 PySceneDetect / Panda70M / TransNetV2 / AutoShot；选 TransNetV2（端到端神经网络，能上 GPU 加速、对复杂镜头切换更稳）。自建基准 ShotBench。
转码：统一成高码率 mp4。L40S 比 H100 吞吐高 ~17%（0.0674 vs 0.0574 videos/s，因 L40S 有 NVENC，H100 只有 NVDEC）；用 PyNvideoCodec 替代 ffmpeg 转码吞吐 0.3702 vs 0.1026；组合优化后 ≈6.5× 提速。
过滤：运动过滤（光流分类器，去静止/乱抖；标注 pan/zoom/tilt）；质量过滤（DOVER 去底部 15%，美学阈值 3.5）；叠字过滤（InternVideo2 嵌入 + MLP，去后期加的字幕）；类型过滤（去掉游戏/动画/抽象画面，上采样人/物交互类）。
标注：用 VILA-13B（FP8 TensorRT-LLM，比 PyTorch FP16 快 10×）每片生成描述，平均 559 字符 / 97 词；每 256 帧一条 caption。
去重：SemDeDup + InternVideo2 嵌入 + GPU k-means（k=10,000），去掉约 30% 数据。
基础设施：基于 Ray 的流式管线，跨地理分布集群，解耦数据搬运与计算。

视频类别分布（占比）：

类别	占比
自然动态（Nature dynamics）	20%
手部动作/物体操作（Hand motion & object manipulation）	16%
空间感知与导航（Spatial awareness & navigation）	16%
驾驶（Driving）	11%
人体动作/活动（Human motion & activity）	10%
第一视角（First-person POV）	8%
动态镜头运动（Dynamic camera movements）	8%
其它（Others）	7%
合成渲染（Synthetically rendered）	4%

注意：与机器人最相关的"手/物操作 16% + 第一视角 8%"加起来仅约 1/4，自然风光/驾驶等占大头——这点后面"对机器人有多大用"会回来谈。

3. 视频 Tokenizer（Sec.4）¶

把视频压成紧凑 token（像视频编解码器），是 WFM 训练的前置瓶颈。Cosmos Tokenizer 一套架构同时支持连续/离散、图像/视频、各压缩率。

架构：编码器-解码器，时序因果（只看当前+过去帧）→ 既能当图像 tokenizer（单帧）又能当视频 tokenizer，且贴合 Physical AI 的因果世界。先做 2 级小波变换（在小波空间去像素冗余），再用因果 3D 卷积（空间 1×k×k + 时间 k×1×1，左 padding 保因果）+ 因果时空注意力；Swish 激活、LayerNorm。
连续 tokenizer：vanilla AE，latent 维 16。离散 tokenizer：FSQ 量化，6 维 latent，levels (8,8,8,5,5,5) → 词表 64,000。
压缩率：图像 8×8 / 16×16；视频 4×8×8 / 8×8×8 / 8×16×16（T×H×W）。
训练：图像/视频交替小批；两阶段损失（L1 + VGG 感知 → 加光流损失 + Gram 矩阵 + 对抗损失）；不用 KL/commitment 辅助损失。
结果：DAVIS 上比前作 +4 dB PSNR；速度 2×–12×，且模型最小；单张 A100 80GB 一次可编码 8s@1080p 或 10s@720p。

图8 tokenizer 压缩率(对数)vs 重建质量(PSNR)：连续(左)/离散(右)。Cosmos 在更高压缩率下仍保持更高质量，权衡曲线优于前作

4. 扩散式 WFM（Sec.5.1）¶

潜空间扩散模型，在 tokenizer（Cosmos-Tokenize1-CV8×8×8-720p，连续 token）的潜空间里去噪生成。

公式：采 EDM 去噪分数匹配；用不确定性加权把各噪声级当多任务学。
架构：基于 DiT。3D patchify（p_t=1, p_h=p_w=2）→ token 序列；3D 分解 RoPE（FPS-aware）+ 可学习绝对位置嵌入（减少 morphing 伪影）；T5-XXL cross-attention 注入文本；QK-Norm（RMSNorm） 稳训练；AdaLN-LoRA 把 AdaLN 低秩化，参数从 11B→7B（减 36%）不掉点。
两步预训练：① Text2World（文本→视频）② Video2World（过去视频+文本→未来视频，条件帧沿时间维拼接 + 加噪增强 + 二值掩码）。
配套：提示升采样器（Cosmos-UpsamplePrompt1-12B，基于 Mistral-NeMo-12B-Instruct，把用户短提示扩成训练分布的长描述）；Video2World 提示用 Pixtral-12B 零样本。
训练工程：混合精度（BF16+FP32），渐进训练 512p→720p、57→121 帧，多宽高比分桶（1:1/3:4/4:3/9:16/16:9）；14B 模型参数+梯度+优化器约 280GB + 激活 310GB，用 FSDP（分片 64）+ Context Parallelism（CP=8） 摊到多卡（参数降到 ~4GB/卡，激活 ~40GB/卡）。刻意不用 TP/SP 也达到可比 MFU。

图11 扩散 WFM（Cosmos-Predict1）结构：tokenizer 编码→加高斯噪声→3D patchify→N×(自注意力+cross-attention 注入T5文本+MLP，AdaLN 调制)→tokenizer 解码

5. 自回归式 WFM（Sec.5.2）¶

把世界生成当下一个 token 预测（像语言模型），用离散 tokenizer（Cosmos-Tokenize1-DV8×16×16-720p）。

架构：Llama3 风格 GPT，从零训（无语言理解能力）。3D RoPE（时间维用 YaRN 外推上下文）+ 3D 正弦绝对位置嵌入；T5-XXL cross-attention（每个自注意力后加）注入文本；QK-Norm + z-loss（λ=3e-4） 稳定大规模训练。词表 64,000。
两步预训练：① 纯下一 token（仅凭过去视频做"前瞻生成"）② 文本条件 Video2World。多阶段加长上下文（17→34 帧），固定 640×1024，最后 30,000 步 cooling-down（高质量数据，学习率线性降到 0）。
重压缩补救：DV8×16×16 压得狠会失真 → 额外训一个扩散解码器（Cosmos-Predict1-7B-Decoder，把离散 DV token 映回连续 CV token 提质）。
工程：12B 模型约 192GB，用 TP + SP；不用 MQA/GQA，尽量对齐 LLM 架构以便复用。

图14 自回归 WFM（Cosmos-Predict1-Video2World）结构：离散 token→词表嵌入→N×(绝对位置嵌入+3D RoPE+自注意力+cross-attention 注入T5文本+MLP)→tokenizer 解码

模型家族（Tab.10）：

族	基座	→ 衍生（Video2World）	tokenizer	增强件
扩散	7B / 14B-Text2World	7B / 14B-Video2World	CV8×8×8-720p（连续）	提示升采样器 12B
自回归	4B / 12B	5B / 13B-Video2World	DV8×16×16-720p（离散）	扩散解码器 7B

总算力：所有 WFM 在 10,000 张 H100 上训了 3 个月。

6. 预训练 WFM 评测（Sec.5.3）¶

只评了两个面：3D 一致性与物理对齐（作者承认这远不够全面，留待 future work）。

3D 一致性（500 段 RealEstate10K 静态场景）：极线几何 Sampson 误差 + 相机位姿估计成功率 + 新视角合成。Cosmos 显著优于 VideoLDM 基线，接近真实视频水平——是其"能当世界模拟器"的主证据。
物理对齐（自建 PhysX/IsaacSim 8 类场景：自由落体、斜坡滚动、U 形坡、稳定/不稳定堆叠、多米诺、跷跷板、陀螺；共 800 段 1080p）：把 WFM rollout 和仿真 GT 比 PSNR/SSIM/DreamSim/物体 IoU。结论很诚实——所有 WFM 都在物理遵守上挣扎，更大模型画质更好但物理对齐没更好；常见失败：物体凭空出现/消失（object impermanence）、形变、违反重力、不合理运动学。

图20 物理场景：仿真 GT(每组上排) vs Cosmos-7B-Video2World rollout(下排)。蓝框为跟踪物体用于算 IoU。倾斜坡/U 形坡/不稳定堆叠等已"测到 WFM 的极限"

7. 后训练应用（Sec.6）——机器人是重点¶

三类下游：相机控制（可导航 3D 世界）/ 机器人操作 / 自动驾驶（多视角）。机器人部分（Sec.6.2）两个任务：

指令式视频预测：输入当前帧 + 文本指令 → 预测机器人执行指令的视频。数据 = 内部 Cosmos-1X 数据集（1X.Tech 的 EVE 人形机器人第一视角，约 200 小时、~12,000 段 1–9s、30fps、512×512，每段一句指令）。微调出 7B/5B-Video2World-Sample-Instruction。
动作式下一帧生成：输入当前帧 + 动作向量 → 预测下一帧；给定动作序列可自回归出整段视频。数据 = 公开 Bridge（~20,000 段、320×256、5fps，7 维动作 (Δx,Δy,Δz,Δθr,Δθp,Δθy,ΔGripper)，同 OpenVLA）。动作是新模态，加 action embedder MLP（5B 走 cross-attention，7B 加到 DiT 的时间步嵌入）。

⚠️ 关键认知：后训练评的是"生成的预测视频质量好不好/像不像/能不能让机器人据此规划"，并没有训出/评测一个真正去执行任务的策略，也没有真机成功率。它产出的是"会做梦的世界模型"，不是"会干活的策略"。

8. 安全护栏（Sec.7）¶

Pre-Guard：关键词屏蔽 + Aegis 护栏（拦有害输入）。
Post-Guard：视频内容安全过滤 + 人脸模糊（拦有害输出/隐私）。
配 red team。

9. 全量数字表（关键数字一处看全）¶

数据来源均为论文正文/表格；标"待核"者为文中未显式给出。

项目	数字
原始视频库	~20M 小时（720p–4k）
预训练片段 / 微调片段	~10⁸ / ~10⁷
去重移除比例	~30%
标注模型	VILA-13B（FP8 TRT-LLM，10× 提速），平均 559 字符/97 词
转码提速	组合后 ≈6.5×；L40S 比 H100 高 ~17%
离散 tokenizer 词表	64,000（FSQ levels 8,8,8,5,5,5；6 维）
连续 tokenizer latent 维	16
Tokenizer 质量/速度	DAVIS +4 dB PSNR；2×–12× 提速；A100 一次编码 8s@1080p / 10s@720p
扩散族	7B / 14B（Text2World→Video2World）
自回归族	4B / 12B（→5B / 13B Video2World）
扩散配置	7B: 28 层 / dim 4096 / 32 头；14B: 36 层 / dim 5120 / 40 头
自回归配置	4B: 16 层 / dim 4096；12B: 40 层 / dim 5120
AdaLN-LoRA 省参	11B→7B（减 36%）
训练算力	10,000× H100 × 3 个月
14B 显存	~280GB（参/梯/优化器）+ 310GB（激活）；FSDP 64 + CP 8
12B（AR）显存	~192GB；TP+SP
z-loss 系数 λ	3×10⁻⁴
AR cooling-down	30,000 步
3D 一致性（Tab.19）	Cosmos-7B-Text2World：Sampson 0.355、位姿成功率 62.6%；VideoLDM 基线 0.841 / 4.4%；真实视频 0.431 / 56.4%
AR 失败率（Tab.18，图条件）	4B 15% → 12B 2%；视频条件(9帧)普遍 0–2%
物理对齐（Tab.20，33 帧）	PSNR ~17–21、Avg IoU 0.33–0.60；更大模型未更好；9 帧条件下扩散像素级优于自回归
机器人指令式人评（图24）	Cosmos-7B 总体偏好 78.3% vs VideoLDM-Instruction 13.0%
机器人动作式（Bridge，Tab.23）	Cosmos-7B：PSNR 21.14 / SSIM 0.82 / FVD 190；IRASim 基线 19.13 / 0.64 / 593

10. 局限（作者自己点的，很诚实）¶

当前模型（含本作）都还不是可靠的物理模拟器：缺物体永久性、接触密集动态不准、指令遵守不一致；画面真实 ≠ 遵守重力/光照/流体等物理。
评测难：人评物理保真度受主观偏见影响，且可能与下游 Physical AI 指标不正相关 → 方向是自动化多模态 LLM 评测器 + 物理仿真器辅助。
自回归 vs 扩散：当前扩散画质更好、控制信号更灵活（相机/末端位姿/车轨迹/多视角）；自回归潜力在于可继承 LLM 权重 + 推理可加速（KV cache、因果注意力），更适合交互/实时规划，但目前画质落后。边界正在模糊（扩散可蒸馏成因果学生；自回归可加扩散头）。
WFM 用途 1–5（评估/初始化/训练/规划/合成数据）论文全部只列举、零实证。

11. 核心洞见¶

"工业化底座"打法：Cosmos 真正的贡献不是单点 SOTA，而是把数据管线 + tokenizer + 两族 WFM + 后训练 + 护栏整条链工程化、开源开放权重，降低别人造世界模型的门槛。GPU 厂商卖"铲子"的自然延伸。
tokenizer 是真硬货：因果 + 小波 + FSQ，质量/速度/通用性都领先，且可独立复用——可能是平台里最"即插即用"的部分。
诚实区分了"画得像"和"算得对"：用 IsaacSim 造受控物理基准来量化物理对齐，并直说"都没及格、更大也不行"，这比很多 demo 式世界模型论文务实。

🗣️ 外部评价¶

检索 "NVIDIA Cosmos world foundation model review/discussion" 与 "Cosmos physical AI critique" 后，公开结果几乎全是 NVIDIA 官方口径与转述，独立第三方深度批评在检索结果中未见（如实记录）。

🌐 NVIDIA 官方/CEO 口径：黄仁勋称"正如大模型革新了生成式与 agentic AI，Cosmos 世界基座模型是 Physical AI 的突破"；强调 9,000 万亿 token 规模训练、3D 一致性与物理对齐评测、可微调到自动驾驶/人形。NVIDIA Newsroom、NVIDIA 技术博客
🌐 官方亦承认局限（与论文一致）：当前模型仍不足以做可靠模拟器，缺物体永久性、接触密集动态不准、指令遵守不一致；常见失败含时序不一致、相机/物体运动不稳、声画不对齐、物体形变、3D 结构不准、物理不合理。NVIDIA 技术博客
🌐 后续演进：NVIDIA 已推出 Cosmos 3（2026-06-22 技术报告），主张"感知与生成分离从根本上受限，必须统一成单一可扩展框架"，转向 omnimodal 世界模型——侧证本文这代在统一性/物理性上仍有大缺口。Cosmos 3 技术报告
🧑 同行学术收录：本工作进入 ACM RichMedia/GenAI workshop 论文集（出处级，非批评）。ACM DL

🤔 我的判断（🤖，尤其：它对机器人到底有多大用、是不是噱头）¶

不是纯噱头，但被市场叙事放大了。硬货是确实存在的：tokenizer 领先、整条数据/训练/后训练链工程化且开源开放权重、物理评测做得诚实。这些对"想造世界模型的人"是真省力。
但对"机器人到底有多大用"，要泼三盆冷水：
它给的是"会做梦的世界模型"，不是"会干活的策略"。 后训练只证明了"生成的预测视频更像、人更偏好、像素/FVD 更好"（Bridge FVD 190 vs 593、指令偏好 78.3%），没有任何真机任务成功率。论文列的 5 大用途（策略评估/初始化/训练/规划/合成数据）全部零实证——这恰恰是机器人真正想要的东西，却整篇没兑现。
物理对齐自己都承认没及格（Avg IoU 0.33–0.60、更大模型不更好、违反重力/物体闪现）。机器人最吃的就是接触密集动力学，而这正是它最弱的一环（作者明说"contact-rich dynamics 不准"）。拿它当 MPC/RL 的环境，模型误差会直接成为决策上界的天花板。
数据分布偏科：手/物操作 16% + 第一视角 8%，机器人相关不到 1/4，大头是自然/驾驶/风光。通用 WFM 不等于机器人 WFM，垂直适配仍要大量自采数据后训练。
它真正能用的地方（现在就能用）：① Cosmos Tokenizer 当通用视频压缩件复用；② Video2World 当合成数据/数据增强引擎（生成多样未来、相机控制视角）喂模仿学习——这与我们概念-机器人数据与标注的"数据护城河"主线直接咬合；③ 当定性的可视化/直觉验证工具，而非定量可信的物理模拟器。
一句话：Cosmos 是"世界模型的安卓底座"，工程价值高、机器人即战力有限；把它当数据/可视化基础设施用是稳的，把它当可信物理模拟器或策略训练环境用，目前是过度承诺。后续看 Cosmos 3 是否补上"统一性 + 物理性"这两课。

12. 对我们¶

与卡片-UniSim 互为对照：UniSim 是"统一动作-视频交互模拟器"的学术原型，Cosmos 是同一思路的工业化、开源、可微调放大版（数据/tokenizer/两族模型/护栏全配齐）。两者都押注"视频世界模型当机器人模拟器"，但都还卡在物理保真这一关——可长期对照演进。详读可对照详读-UniSim。
与概念-机器人数据与标注直接相关：Cosmos 的最现实落点不是"模拟器"而是"合成数据生成 + tokenizer"。Video2World/动作条件生成可作为数据增强手段，和我们关注的"采数效率 / 数据护城河"战场（遥操作、手套、UMI、详读-DexTeleop-0）形成"造数据"的另一条供给线。
机制可借：因果小波 tokenizer、FSQ 离散化、AdaLN-LoRA 省参、扩散↔自回归的取舍框架，都是可单独借用的工程点。
采购视角（给老板的话）：要它当"省采数的合成数据/可视化工具"——值；要它当"机器人脑子里可信的物理沙盘"——还早，论文自己都没敢声称。