详读 · RoboVLMs（"造 VLA 到底什么重要"——600+ 实验消融指南）¶

卡片版见卡片-RoboVLM。本页是全文精读：定位 → 三大问题 → 大规模消融结论（哪种 backbone / 结构 / 历史 / 动作空间更好） → 全量数字表 → 局限 → 外部评价 → 我的判断 → 对我们。来源：arXiv 2412.14058 v4（2024-12 首发，2026-02-13 v4）· 已正式发表于 Nature Machine Intelligence (2026-02) · 项目页 · 代码作者：Xinghang Li、Peiyan Li、Minghuan Liu、Hanbo Zhang(通讯)、Tao Kong(通讯)、Huaping Liu(通讯) 等 — 清华 + 字节跳动 Research + 上交 + 新国大 + 北京智源(BAAI)

0. 一句话定位¶

不是又一个新模型，而是一份实证指南：作者搭了一个统一框架 RoboVLMs，把任意 VLM「零成本」转成 VLA，然后用 8+ 种 VLM 主干 × 4 种策略结构 × 600+ 组实验，逐项回答"造 VLA 时到底什么重要"——which backbone / how to formulate / when to add cross-embodiment data。最终用结论拼出的最佳配置（KosMos-2 + 策略头 + 连续动作 + 历史）在 CALVIN / SimplerEnv / 真机三处都刷到 SOTA。

1. 动机：四类机器人策略，为什么选 VLA¶

图1a 学习型机器人策略的四大类作者把已有策略分四类：① Model-Free（状态编码→策略网络出动作）；② Model-Based（依赖显式机器人/环境模型，复杂动力学难泛化）；③ World-Model-Based（预测目标图像→逆动力学出动作）；④ VLA（Model-Free 的一个特化分支，用大规模预训练 VLM 当 state encoder，继承其语义泛化与鲁棒）。核心信念：VLA 能继承 VLM 在 web 级数据上学到的多模态表征，从而在机器人数据有限时也能适配开放世界——但"VL 预训练到底如何帮到机器人策略"此前没人系统验证过，这正是本文要填的坑。

2. 两轴结构分类法 + 三大研究问题¶

图1b 结构分类（动作空间×是否用历史）/ 图2 三大设计问题 图1b 的两轴分类（全文骨架）： - 纵轴 = 动作空间：离散（Discrete，把动作分 bin 当 token 自回归）vs 连续（Continuous，MLP 直接回归浮点）。 - 横轴 = 历史信息：One-Step（只用当前观测）vs Historical（滑窗历史）；历史又分两种聚合方式——Interleaved（交错）：把历史观测/动作 token 交错塞进 VLM 主干里融合；Policy Head（策略头）：VLM 每步只出单步表征，历史交给一个额外的策略头（RNN/Transformer/Diffusion）融合。 - 由此得四种代表结构：One-Step-Discrete（RT-2/OpenVLA）、One-Step-Continuous（π0/ACT）、Interleaved-Continuous（GR-1/Octo/GR-2）、Policy-Head-Continuous（RoboFlamingo/RoboUniview）。

图2 三大问题（=本文三条主线）：How 怎么建模（观测视界 / 动作空间 / 历史聚合）· Which 用哪个主干（VLM 结构 + VL 预训练数据量）· When 何时加额外数据（in-domain / cross-embodiment）。再细分成 6 个可执行研究问题（Q1.1 起，见 Extended Table 1）。

3. ⭐ 重点：大规模消融的核心结论¶

这是全篇的价值所在。下面每条都是作者用控制变量实验得出的"what matters"。

3.1 Which backbone：KosMos 与 PaliGemma 完胜——关键是"VL 预训练是否充分"，不是参数量¶

8 个主干在 CALVIN（单侧视图、公平对齐）跑出的 Avg.Len.（满分 5）：

Backbone	视觉 token 数	VL 预训练数据量	模型大小	Avg.Len.
Flamingo (enc-dec)	64	1B+	3B	1.57
Flamingo	64	1B+	4B	1.71
Flamingo	64	1B+	9B	1.83
Qwen-VL	256	350K	9B	0.30
MoonDream	576	未知	3B	1.81
Uform	256	10M	1.3B	2.28
KosMos	64	90M	2B	3.59
PaliGemma	256	10B	3B	3.82

读数：KosMos 仅 2B / 64 token，却碾压 9B 的 Flamingo（3.59 vs 1.83）——说明决定性因素是充分的视觉-语言对齐预训练，而非堆参数或堆视觉 token。Qwen-VL/LLaVA 不加 perceiver resampler 降采样视觉 token 时表现异常崩坏（Qwen 0.30），作者归因于图像分辨率 / 视觉 token 数量。

Finding 2：VLA 受益于在更大 VL 数据集上充分预训练的 VLM 主干。

3.2 How formulate（结构）：连续动作 > 离散；历史关键；策略头 > 交错¶

CALVIN ABCD→D 上，固定 chunk=10、只执行首步、≤5 epoch（核心结构消融表 = 原文 Table I）：

Backbone	结构	动作空间	1	2	3	4	5	Avg.Len.
LLaVA	One-Step	Disc.	0.809	0.484	0.278	0.175	0.103	1.85
LLaVA	One-Step	Cont.	0.793	0.592	0.420	0.329	0.235	2.37
LLaVA	Interleaved	Cont.	0.892	0.645	0.436	0.282	0.181	2.44
LLaVA	Policy-Head	Cont.	0.873	0.678	0.506	0.376	0.275	2.71
Flamingo	One-Step	Disc.	0.681	0.318	0.133	0.062	0.029	1.22
Flamingo	One-Step	Cont.	0.681	0.354	0.158	0.076	0.035	1.30
Flamingo	Policy-Head	Cont.	0.964	0.896	0.824	0.740	0.662	4.09
KosMos	One-Step	Disc.	0.424	0.097	0.023	0.005	0.002	0.55
KosMos	One-Step	Cont.	0.935	0.868	0.814	0.768	0.702	4.09
KosMos	Interleaved	Cont.	0.987	0.915	0.824	0.737	0.660	4.12
KosMos	Policy-Head	Cont.	0.967	0.930	0.899	0.865	0.826	4.49
PaliGemma	One-Step	Disc.	0.316	0.096	0.021	0.005	0.001	0.44
PaliGemma	One-Step	Cont.	0.933	0.863	0.808	0.751	0.688	4.04
PaliGemma	Interleaved	Cont.	0.949	0.896	0.851	0.803	0.754	4.25
PaliGemma	Policy-Head	Cont.	0.984	0.933	0.888	0.835	0.779	4.42

三条结论（每条在 4 个主干上都成立）： - 连续动作 > 离散动作：尤其长视界。离散把动作量化成 bin，长任务复合误差累积（KosMos 离散仅 0.55 vs 连续 4.09）。连续能表精确浮点。 - 历史观测关键：同主干下，带历史一律碾压 One-Step；历史越长越好（但算力涨）。 - 策略头 > 交错：交错把历史塞进 VLM 主干，破坏了 VLM 原生的 VL 融合格式，且训练/推理显存与 FLOP 显著更高；策略头保留 VLM 原始处理方式、另用小头融历史，又好又省。

Finding 3.1：最佳结构 = 多步历史观测输入 + 连续动作输出 + 策略头融合历史。

3.3 泛化 & 数据效率：策略头同样最优；大 VLM 更省数据¶

泛化（CALVIN ABC 训→D 测，零样本新场景）：KosMos+策略头掉点最少，其余结构大幅下滑。
数据效率（Extended Table 4，缩放训练数据量，Avg.Len.）：

结构	0.1x	1x	5x
Flamingo P.H. 3B	0.13	4.09	4.21
Flamingo P.H. 4B	0.55	3.79	—
Flamingo P.H. 9B	0.83	3.97	—
KosMos Inter.	2.49	4.12	4.46
KosMos P.H.	2.52	4.49	4.51

在 10% 数据下 KosMos P.H. 仍达 2.52，远超 Flamingo 9B 的 0.83；且 Flamingo 同族里 9B>4B>3B（大模型更数据高效）。

Finding 3.2：策略头融合历史在泛化与数据效率上都最优。

3.4 训练目标 & 执行范式：Flow Matching ≈ MSE+BCE；执行整 chunk 最好¶

基于 PaliGemma 的 One-Step-Continuous（对齐 π 系列设定，原文 Table IIa，Avg.Len.）：

训练目标	训练集	执行范式	Avg.Len.
Flow Matching	ABC	Chunk	3.68
Flow Matching	ABC	First	2.45
Flow Matching	ABC	Ensemble	3.14
MSE+BCE	ABC	Chunk	3.57
MSE+BCE	ABC	First	2.19
MSE+BCE	ABC	Ensemble	3.14
Flow Matching	ABCD	Chunk	4.09
Flow Matching	ABCD	Ensemble	4.12
MSE+BCE	ABCD	Chunk	4.04
MSE+BCE	ABCD	First	3.06

扩散损失(Flow Matching)只比 MSE+BCE 略好、差距不显著——短视界任务里确定性目标已够好，扩散的推理开销不划算。
执行整段 chunk（Chunk）最好，只执行首步（First）最差：First 丢了时间一致性，长任务尤其崩。Chunk 还能把推理频率拉到 >30Hz 实时。

Finding 3.3：One-Step-Continuous 下扩散损失与 MSE 损失相当；推理聚合关键是保持执行一致性。

3.5 MoE（动作专家）：帮泛化、不帮已见场景¶

仿 π0 给每层 VLM 加一个动作专家 FFN（VL token 走原 FFN、动作 token 走专家 FFN，靠 self-attention 交互；原文 Table IIb）：

训练目标	用 MoE	训练集	Avg.Len.
MSE+BCE	✓	ABC	3.69
MSE+BCE	✗	ABC	3.57
Flow Matching	✓	ABC	3.84
Flow Matching	✗	ABC	3.68
MSE+BCE	✓	ABCD	3.46
MSE+BCE	✗	ABCD	4.04
Flow Matching	✓	ABCD	3.84
Flow Matching	✗	ABCD	4.10

零样本（ABC）：MoE 一律涨点——MoE 保住了预训练 VL 表征不被动作监督污染 → 泛化更好。
已见场景（ABCD）：MoE 反而掉点——熟悉场景下直接微调 VLA 让它"专化拟合"更划算。

Finding 3.4：MoE 提升泛化，但不能提升已见场景表现。

3.6 When cross-embodiment：预训练单独用处不大，"co-train→post-train"才有用；in-domain 数据最香¶

三种用法：Co-train（in-domain + 跨本体一锅训，RT-2/OpenVLA/Octo 路线）、Post-train（先 co-train 再用 in-domain 微调，π0 路线）、Finetune（只用 in-domain）。用 KosMos P.H. + OXE 跨本体数据。SimplerEnv 平均成功率（Extended Fig 4）：

环境	配方	平均成功率
WidowX+Bridge	Bridge Finetune	0.44
WidowX+Bridge	OXE Co-Train	0.40
WidowX+Bridge	Post-Train	0.50
Google Robot	RT-Partial Finetune	0.30
Google Robot	RT Finetune（同机器人额外 in-domain）	0.68
Google Robot	OXE Co-Train	0.47
Google Robot	Post-Train	0.56

单纯 co-train 跨本体数据，提升不显著（Bridge 0.40 甚至略低于纯 Finetune 0.44）。
Post-train 有潜力：Bridge 上 0.50 > 0.44；但 Google Robot 上只在高频的 pick-coke-can 涨、其余掉——因为 OXE 里 pick-and-place 占比极大，post-train 偏向高频技能、牺牲低频。
in-domain 数据最关键：同机器人、哪怕任务无关的 in-domain 数据（RT Finetune 0.68）也比大规模跨本体数据有用得多。
跨本体预训练帮 few-shot（Extended Fig 5）：CALVIN few-shot（每任务仅 10 条轨迹），OXE 预训练让单任务成功率 +17.2%、每 rollout 多完成 0.25 个任务（Avg.Len. 0.57 vs 0.32）。

Finding 4：额外 in-domain 数据（即便不同任务）有益；跨本体 co-train 再 post-train 能进一步提升高频任务与 few-shot 表现。

4. SOTA 对比 & 真机¶

图4 仿真(SimplerEnv/CALVIN)与真机结果

CALVIN（Extended Table 2，Avg.Len. 满分 5）：

方法	训练集	Avg.Len.
RT-1	ABCD	2.45
HULC	ABCD	3.06
GR-1（前 SOTA）	ABCD	4.21
KosMos P.H. (RoboVLMs)	ABCD	4.49
GR-1	ABC→D	3.06
KosMos P.H. (RoboVLMs)	ABC→D	4.25

ABC→D 零样本新场景：比 GR-1 多完成 1.19 个任务（4.25 vs 3.06），单任务 +12.6%、连续 5 任务总成功率 +30.3%。

SimplerEnv（Extended Table 3，Google Robot 平均成功率）：RoboVLMs 在 Pick Coke Can 0.970、Move Near 0.565 等普遍领先；OpenVLA-7b、Octo 大幅落后（如 Bridge 上 OpenVLA-7b 多任务 final≈0）。

VL 预训练的必要性（Supplementary Table 2，是否带 VL 预训练）：

结构	无 VL 预训练	有 VL 预训练
KosMos Inter.	1.38	4.12
KosMos P.H.	2.51	4.49
Flamingo P.H. 9B	1.69	3.97

去掉 VL 预训练几乎腰斩——VL 预训练是泛化与数据效率的地基。

真机（Kinova Gen3 7-DoF + Robotiq 2F-85 夹爪 + 头/腕双相机，105 任务 / 74K 轨迹的字节真机基准；20 任务×5 设定×3 rollout）：微调 Octo-Base / OpenVLA / KosMos P.H. 对比，KosMos P.H. 在全部 5 个设定（Simple + 4 个 Unseen：干扰物/背景/目标物/新技能描述）都最好，尤其 Simple 与 Unseen Background。还涌现自纠错能力（Open The Oven 第一次没够到把手→第二次自己重定位，训练集里无此类数据），基线无此能力。

5. 方法补充（RoboVLMs 框架机制）¶

Extended Fig2 MoE 结构 + 四种 VLA 结构示意 - 动作建模：7 维动作（6-DoF 末端位姿 + 夹爪开合）。归一化用训练集 1st/99th 分位裁剪再线性映到 [-1,1]；离散化时每维分 256 bin，加 offset(默认10) 占用 tokenizer 尾部 token。 - 连续动作损失：前 6 维 MSE + 夹爪维 BCE（式7）；离散动作损失：逐维 CE（式8，类文本下一 token 预测）。 - 四种结构的 token 组织（式9–15）：One-Step 用 [LRN] token 经 MLP 出动作；Interleaved 把 [OBS]/[LRN] 交错成序列喂主干；Policy-Head 主干每步出 [LRN]，再交给额外策略头 h(RNN/Transformer/Diffusion) 融历史出 chunk。交错结构只能配 decoder-only；策略头 enc-dec / decoder-only 都行。 - 训练配置：CALVIN 窗口 16 / chunk 10 / 侧+腕视图 / batch 128 / 5 epoch；真机窗口 8；全部在 4×8 张 A100-80G 上训。

6. 局限 / 存疑（作者自陈 + 我补）¶

作者承认本工作仍属初步：① 动作 tokenization / 策略头 / 训练目标未充分探索（VQ-VAE、VQGAN、FAST tokenizer 都没试）；② 考察的 VLM 主干集合有限，可继续扩；③ 这么大模型做实时机器人控制仍是挑战。
我补：评测重 CALVIN（桌面单臂、固定 34 技能），结论对双臂/移动/灵巧手/接触密集任务的迁移性未验证；动作只到 7 维末端，无力/触觉维度（与本库卡片-Tactile-VLA / 卡片-VLA-Touch 路线正交）。
"KosMos 最佳"部分受视觉 token 数=64这一实现细节影响（Qwen/LLaVA 需额外 resampler 才正常），结论里 backbone 与 token 预算两个变量未完全解耦。

7. 核心洞见¶

"什么重要"的优先级：VL 预训练充分度 > 历史 + 连续动作 + 策略头结构 > in-domain 数据 ≫ 跨本体数据单独使用 ≈ 扩散损失 vs MSE 的选择。换言之，先选对充分预训练的 VLM、用对结构，比纠结扩散/MoE/跨本体这些"花活"重要得多。
反直觉点：① 大家追捧的离散动作 token（RT-2/OpenVLA 路线）在长视界明显劣于连续动作；② 大家堆的跨本体预训练单独用并不稳定涨点，要靠 post-train 才兑现；③ 扩散策略在短视界 VLA 上相对 MSE 没有显著优势。
工程价值：RoboVLMs 是一张"选 backbone / 动作头 / 历史融合 / 训练配方"的决策查表，能省掉大量盲试。

🗣️ 外部评价¶

🌐 正式发表于 Nature Machine Intelligence (2026-02)，DOI s42256-025-01168-7 —— 经同行评审接收，是对其方法论与实证严谨性的强背书。题目从 v1 的"Towards Generalist Robot Policies: What Matters..."演进为终版"What Matters in Building Vision-Language-Action Models for Generalist Robots"。（来源：arXiv v1 / Nature MI）
🌐 社区文献综述（themoonlight.io 评论、HuggingFace Papers 页）以描述性概述为主，复述其核心结论（连续动作 + 策略头最优、KosMos/PaliGemma 领先），未见独立的方法学批评。
⚠️ 未找到 OpenReview 同行评审帖：本文走期刊(Nature MI)而非会议公开评审通道，故无 OpenReview 公开 review/rebuttal 可引；上述检索（OpenReview / review / critique）均未命中实质性第三方批评。如实记录，避免编造。

🤔 我的判断（🤖）¶

可信度高：结论建立在 600+ 受控实验 + 统一框架公平对比 + 开源（代码/权重/数据集 BDRBench20 全放出）+ Nature MI 同行评审，证据等级 A。这正是本库少有的"消融指南型"论文，价值在可迁移的工程决策而非单个 SOTA 数字。
最该带走的三句话：① 选 VLM 主干看"VL 预训练够不够充分"而非参数量（KosMos 2B 胜 Flamingo 9B）；② 结构默认上「连续动作 + 历史 + 策略头」；③ 数据上优先攒 in-domain（哪怕任务无关、同机器人即可），跨本体数据靠"co-train→post-train"两段式才兑现、且偏向高频技能。
保留意见：结论强绑 CALVIN/SimplerEnv 桌面单臂 + 7 维末端动作，迁到双臂/灵巧手/力触觉任务需重测；"扩散无显著优势"只在短视界成立，长视界/高多模态轨迹未必。

🔗 对我们¶

决策查表：自建/选型 VLA 时，直接照搬其优先级——先挑充分 VL 预训练的 decoder-only 主干（KosMos-2 / PaliGemma 量级），上「连续动作 + 历史 + 策略头」，再考虑要不要 MoE（只为泛化）。
与卡片-OpenVLA 的对照：OpenVLA 走的正是本文判定为劣的 One-Step-Discrete 路线（离散动作 token、单步），本文实验里 OpenVLA 在 SimplerEnv/真机均被 KosMos P.H. 明显超过——这条对照值得在我们评估离散 vs 连续动作头时引用。
概念锚点：本文的两轴分类（动作空间 × 历史聚合）+ 四种结构 + enc-dec/decoder-only 区分，是理解整个 VLA 家族的骨架，应并入概念-模型架构基础作为 VLA 结构分类的标准参照。
缺口提示：它完全不碰力/触觉，正好是本库卡片-Tactile-VLA / 卡片-VLA-Touch / 详读-TacVLA 这一支的互补空间——"RoboVLMs 把视觉 VLA 的结构选型敲定了，触觉维度怎么并进这套最优结构"是可接的研究问题。