跳转至

详读 · SpatialVLA(空间表示增强的通用 VLA)

卡片版见 卡片-SpatialVLA。本页是全文精读(含正文 + 附录):定位 → 动机 → 逐模块方法(Ego3D 位置编码 / 自适应动作网格)→ 全量数字表 → 局限 → 洞见 → 外部评价 → 我的判断 → 对我们。 来源:arXiv 2501.15830 v5(2025-05-19,RSS 2025 接收)· 项目页 · 代码 作者:Delin Qu、Haoming Song、Qizhi Chen(共一)、Dong Wang(通讯)、Bin Zhao(通讯)、Xuelong Li 等 —— 上海 AI Lab + 复旦 / 上交 / 浙大 / 上科大 / 西工大

图1 SpatialVLA 总览:1.1M 真机轨迹预训练 + Ego3D 位置编码 + 自适应动作网格,雷达图显示在 3D 空间理解/零样本同分布泛化上 SOTA,且推理更快

0. 一句话定位

PaliGemma2 这个 VLM 上造一个通用机器人策略:用 Ego3D Position Encoding 把单目深度反投影出的 3D 点位注入视觉 token(免相机外参标定),用 Adaptive Action Grids 把连续动作按数据分布自适应离散成空间动作 token(一步动作只需 3 个 token,而非 RT-2/OpenVLA 的 7 个)。1.1M 真机轨迹预训练,零样本即可跨机控制,且换新机器人时只需把动作网格按新分布重新离散即可高效后训练。核心主张:空间理解是操作的关键

1. 问题与动机

  • 现有 VLA(RT-2、OpenVLA、π0 等)主要吃 2D 观测,缺乏对 3D 物理世界的精确感知——而人天生会构建结构化的空间心理表示来对位操作。
  • 做"有 3D 空间智能的通用策略"有两个异构性难题
  • 观测不 3D 对齐:不同机器人相机型号/安装位置各异 → 3D 观测空间未标定。
  • 动作特性各异:自由度、控制器、工作空间、任务复杂度不同 → 难学可泛化的空间动作。
  • SpatialVLA 的切入:给观测和动作都造空间对齐、机器人无关(robot-agnostic)的表示,从而跨本体控制 + 快速适配。

2. 模型架构(图2)

图2 SpatialVLA 总体架构:SigLIP 提 2D 语义特征 → Ego3D PE 注入 3D 上下文 → PaliGemma2(Gemma2) 自回归预测 3 个空间动作 token → 去 token 化为连续动作;后训练时按新高斯分布重做网格与嵌入

输入:图像观测 o_t只用一路第三人称相机、单帧)+ 语言指令 L;输出:未来动作块 A_t(chunk T=4)。训练目标是标准自回归交叉熵 next-token:

L(θ) = E[ L(a_t, ã_t) ],其中 ã_t = τ(O_3d, L),再去 token 化成连续动作 a_t

三大组件:(1) SigLIP 视觉编码器出 2D 语义特征;(2) Ego3D PE 注入 3D;(3) Gemma2 自回归出动作 token。骨干用 PaliGemma2(SigLIP 视觉塔 + Gemma2 LLM),深度用 ZoeDepth(冻结)。

2.1 Ego3D Position Encoding(观测侧注入 3D)

  • ZoeDepth 估深度图 D,配相机内参做反投影 π⁻¹ → 得每像素自我中心坐标系下的 3D 位置 p={x,y,z}不需机器人-相机外参标定,对任意本体通用)。
  • SigLIP 出 2D 语义特征 X ∈ R^{d×h×w};对应 3D 位置 P ∈ R^{3×h×w}正弦编码 γ(·) + 可学习 MLP 得 3D 位置嵌入,直接相加到视觉 token:

O_3d = X + P' = X + MLP(γ(P)) (公式 2)

  • 工程细节(附录):对每个 sub-patch 取高频点云编码的均值,再投到 SigLIP patch 维度;MLP 用 LayerNorm + 零权重初始化抑制深度噪声。

2.2 Adaptive Action Grids(动作侧自适应离散,图3)

图3 自适应动作网格:(a) 全数据集上 ΔR/ΔT 动作统计呈椭球聚于中心;(b) 按拟合高斯的概率密度等概率切分网格;(c) 平移/旋转空间得到的自适应 3D 网格

单臂 7 维动作 a={x,y,z,roll,pitch,yaw,grip} 拆三块:

  • 平移 ΔT:把 (x,y,z)极坐标 (ϕ,θ,r),解耦"方向 (ϕ,θ)"与"距离 r"(方向切更细)。
  • 旋转 ΔR(roll,pitch,yaw)
  • 夹爪:2 个离散 token(开/合)。

离散方式(关键创新,非均匀):先把每个变量归一化到 [-1,1],在全数据混合上拟合高斯 N(µ_a,Σ_a),再按等概率 1/M 切 M 段(公式 4)——即让网格集中在高频动作区,而非均匀切。

  • 附录精确 bin 数:θ→16ϕ→32r→8(范围 [0,π]/[-π,π]/[0,√3]);roll/pitch/yaw 各 16
  • 网格线性化为 V = 8194 个空间动作 token 嵌入(M_trans = M_rot = 4096,夹爪 2),与 LLM embedding 共享参数
  • 因此一步动作只生成 3 个 token(trans/rot/grip),对比 RT-1/RT-2/OpenVLA 的 7 个 → 推理更快。

2.3 Spatial Embedding Adaption(后训练侧的迁移技巧)

换新机器人/任务时:在后训练数据上拟合新高斯 N(µ_new,Σ_new) → 重做网格 G_new → 新动作 token 嵌入用预训练网格的三线性插值初始化(公式 6,按质心距离加权)。即把预训练学到的空间动作知识"平移"到新本体,加速收敛、改善初始化(图8 验证特征对齐)。

图8 跨截面特征可视化:空间嵌入自适应让预训练空间网格特征对齐到目标微调模型,改善初始化、加速收敛

3. 训练配置(全量数字)

  • 数据:1.1M 真机演示 = OXE 子集 + RH20T;按真机实测表现改了 OpenVLA 的混合权重(下调 Kuka/Toto/Berkeley Fanuc/FMB;FMB 过多会让机器人显著右偏、Kuka 缺清晰 prompt)。
  • 混合权重 Top(附录表 VI):Bridge 15.34% / Fractal 14.71% / Droid 11.66% / BC-Z 8.64% / Kuka 7.06% / RH20T 5.67% / Stanford Hydra 5.15% / Language Table 5.06%(共 28 个数据集)。
  • 算力64× A100,10 天,batch 2048,AdamW,lr 2e-5,linear scheduler,无 weight decay,warmup 0.005,DeepSpeed ZeRO-1
  • 两阶段:stage1 全量训 160k 步 → 90% acc;stage2 移除 DROID 再训 40k 步 → >95% acc(去 DROID 后准确率明显跳升、loss 下降)。
  • 冻结文本 embedding:保留 VLM 世界知识,利于指令跟随、训练更快(消融 #9 验证)。
  • 参数/部署3.5B 参数(vs RT-2-X 55B);输入 224×224 单图;输出每次 4 个动作(12 token,总词表 V=8194);推理 ~20Hz(正文另处 21Hz)/ 单张 RTX 4090 / 8.5GB 显存;夹爪 stick step 从 1 调到 15(真机关键)。
  • 架构维度(附录表 VII):SigLIP 27 层、hidden 1152;Gemma2 26 层、hidden 2304;Ego3D PE MLP:Linear(204→1152)+LN+ReLU+Linear。

4. 实验结果(全量表)

评测覆盖 7 类场景、24 个真机任务、3 个仿真环境(SimplerEnv / LIBERO / 真机 WidowX / 真机 Franka)。

4.1 SimplerEnv · Google Robot(表 I,%)

方法 VM·Pick Coke VM·Move Near VM·Drawer VM 平均 VA 平均
RT-1 (Converged) 85.7 44.2 73.0 74.6 63.3
RT-2-X (55B) 78.7 77.9 25.0 60.7 64.3
Octo-Base 17.0 4.2 22.7 16.8 1.1
OpenVLA 16.3 46.2 35.6 27.7 39.8
RoboVLM (fine-tune) 77.3 61.7 43.5 63.4 51.3
π0* (open-pi-zero) 88.0 80.3 56.0 70.1
SpatialVLA (zero-shot) 81.0 69.6 59.3 71.9 68.8
SpatialVLA (fine-tune) 86.0 77.9 57.4 75.1 70.7

VM=Visual Matching,VA=Variant Aggregation。零样本 VM 71.9% 超第二名 RoboVLM +15.6;且 3.5B 直接超 55B 闭源 RT-2-X(71.9 vs 60.7 / 68.8 vs 64.3)。

4.2 SimplerEnv · WidowX(表 II,#Overall 平均,%)

方法 Spoon Carrot Stack Block Eggplant Overall
RT-1-X 0 4.2 0 0 1.1
Octo-Small 47.2 9.7 4.2 56.9 30.0
OpenVLA 0 0 0 4.1 1.0
RoboVLM (fine-tune) 29.2 25.0 12.5 58.3 31.3
SpatialVLA (zero-shot) 20.8 20.8 25.0 70.8 34.4
SpatialVLA (fine-tune) 16.7 25.0 29.2 100.0 42.7

"Put Eggplant in Yellow Basket"微调后 100% 成功率

4.3 LIBERO 微调(表 III,SR%,三种子 500 trials)

方法 Spatial Object Goal Long Average Rank
Diffusion Policy (scratch) 78.3 92.5 68.3 50.5 72.4 5
Octo (fine-tune) 78.9 85.7 84.6 51.1 75.1 3
OpenVLA (fine-tune) 84.7 88.4 79.2 53.7 76.5 2
TraceVLA (fine-tune) 84.6 85.2 75.1 54.1 74.8 4
SpatialVLA (fine-tune) 88.2 89.9 78.6 55.5 78.1 1

Average 第一;Spatial 88.2%(空间关系理解最强);但 LIBERO-Long 仍弱(缺长程观测架构)。

4.4 真机 Franka(图6,自报):单任务 82% ≈ Diffusion Policy 81%;指令跟随比 OpenVLA +12%(DP 仅 26%);多任务 57% 居首。

4.5 预训练消融(表 IV,Google Fractal + Bridge 混合,从零训,%)

# 设置 Pick Coke VA Pick Coke VM Move Near VA Move Near VM
#1 SpatialVLA(全) 81.6 70.7 79.2 85.4
#2 ~线性 256 bin 40.7 19.0 47.1 52.9
#3 ~均匀分布(非高斯) 77.9 28.0 64.2 55.0
#4 分辨率 1026 74.4 67.3 59.1 54.2
#5 分辨率 4610 76.7 68.0 69.8 79.2
#6 分辨率 6166 80.9 74.0 74.0 79.2
#7 分辨率 8194 81.6 70.7 79.2 85.4
#8 −Ego3D 编码 68.9 70.3 66.7 62.0
#9 −冻结 LLM embedding 70.2 50.7 63.1 62.5

关键读数:① 自适应网格 vs 传统线性 256-bin(#1 vs #2):Google 任务 VA/VM +36.5 / +42.1;② 去 Ego3D(#1 vs #8)VA 从 81.6/79.2 跌到 68.9/66.7(应对光照/纹理/视角变化全靠它);③ 高斯分布优于均匀切(#1 vs #3);④ 分辨率 1026→8194 持续涨,6166 后趋于平台甚至下降(附录 Q1:高分辨率非越大越好)。

4.6 后训练消融(表 V,%)

设置 效果
大数据(Fractal/Bridge) +高斯自适应(#1 vs #2) 仅微增(+2.9% on Move Near VM),因大数据分布已贴近预训练
LIBERO 小数据 LoRA +空间嵌入自适应(#4 vs #5) Spatial/Object/Goal/Long +4.6 / +5.1 / +2.2 / +5.4
LIBERO 上 LoRA vs 全参(#3 vs #4) LoRA 更优(小数据首选 LoRA, r=α=32)

4.7 附录:分辨率 / 细粒度 / 深度消融

  • 动作离散分辨率(表 VIII):1026→4610→6166→8194 整体上升,8194 最佳但 6166 后趋平;自适应网格的 4610 半数分区即超 8196 均匀分区(#1 U8196)。
  • 超越 pick-place 的细粒度任务(表 IX,4 任务平均 ACC):SpatialVLA(ZoeDepth) 72.7% > 传感器深度 70.5% > 无深度 45.4% > OpenVLA 54.5%。结论:ZoeDepth 预测深度比真传感器深度更平滑、更好用(传感器深度噪声大);ZoeDepth 冻结、仅占 8.6% 参数、+0.06s/动作。

5. 局限(作者自陈 · 第 V 节)

  • 高斯建模次优:极端单轴运动时网格会在某坐标轴聚簇、丢失其他轴运动能力;数据噪声也会扭曲网格。未来想用 VAE 等隐式分布建模 + 显式网格结合。
  • 自回归解码偏慢:每动作 3 token,虽 21Hz 但慢于 diffusion 解码(一次解多步);未来想把 diffusion 解码 + 空间网格结合、探索动态 token 数。
  • 长程任务弱:只靠当前帧 + 历史 token,LIBERO-Long 吃亏;缺高效历史感知机制。
  • 数据质量:OXE 质量参差会拖累训练,需要更优数据配比 / 蒸馏高质量子集。
  • 高自由度本体参数开销:更高分辨率/维度会撑大 128k 词表;humanoid 等需在本体间共享动作网格(未来工作)。

6. 核心洞见

  • 把"动作"也当成空间结构来表示:与 3D-LLM/LEO/3D-VLA 只关注 3D 理解不同,SpatialVLA 把 3D 空间性同时灌进观测和动作两侧——这是它区别于其他 3D 基础模型的关键点。
  • 免标定的 Ego3D:用单目深度估计在相机系造 3D,绕开跨本体相机外参标定,是"可规模化跨本体"的工程关键。
  • 分布自适应离散 > 均匀离散:动作天然聚于分布中心,等概率切网格把表示预算花在高频动作上,既省 token 又提精度;半数分区即超均匀全量分区。
  • 网格重离散 = 新的后训练范式:换本体不靠纯 LoRA/全参微调,而靠"重做网格 + 插值初始化嵌入",小数据上额外加几个点。

🗣️ 外部评价

  • 🌐 RSS 2025 接收:官方 GitHub 仓库明确标注 "Accepted at RSS 2025"。来源:GitHub - SpatialVLA/SpatialVLA
  • 🌐 未找到公开的逐条审稿讨论:RSS 不像 ICLR/NeurIPS 那样公开 OpenReview 评审线程,搜索 "SpatialVLA OpenReview" 命中的是同名后续工作与他人论文,没有针对本文的公开 reviewer critique(如实记录)。来源:OpenReview 搜索结果
  • 🌐 第三方文献综述(themoonlight.io):肯定其"免标定注入 3D + 高效(20Hz、少 token)+ 强泛化(超 RT-1/Octo/RoboVLM)+ 1.1M 规模";但点出依赖高端 GPU、对动作表示局限讨论不足、评测偏重空间任务、对视觉以外感知模态探索不足。该综述本身只复述论文、未做独立批判。来源:themoonlight.io review
  • 🌐 后续工作侧面反映其局限:有 OpenReview 投稿 "SpatialVLA-Mamba" 以用 Mamba 状态空间模型替代解码、追求更高效率为卖点,间接印证"自回归解码偏慢"是公认改进点。来源:SpatialVLA-Mamba @ OpenReview

🤔 我的判断(🤖)

  • 真实卖点是"工程上把 3D 灌进 VLA 两侧 + 高效 token 化",不是某个全新理论。Ego3D 用现成 ZoeDepth、动作侧用高斯自适应离散——组合拳干净、复现门槛低(全开源 + 权重)。
  • 数字可信度较高:对比覆盖广(RT 系列/Octo/OpenVLA/RoboVLM/π0),消融指向明确(去 Ego3D、换线性 256-bin 都大跌),且3.5B 超 55B RT-2-X 这条很有说服力。但要注意——SimplerEnv 是仿真、真机 Franka/WidowX 多为自报且 11 trials/任务样本偏小,单点数字别过度解读。
  • 诚实点:作者自己承认高斯次优、长程弱、解码偏慢,没硬吹;表 IX 还自曝"ZoeDepth 比真传感器深度更好用"这种反直觉但解释合理的结论。
  • 对位/精细操作的相关性:它的强项正是空间布局变化 / 高度变化 / 指令对位(Franka #1 prompt 73%、LIBERO-Spatial 88.2%、WidowX 高度变化任务),这正是插拔/对准类任务需要的能力。
  • 存疑:单目深度在透明/反光/无纹理物体上 ZoeDepth 会不会崩?论文未测;真机也都是常规家居物体。

7. 对我们

  • 可借的具体件:① Ego3D PE 这套"单目深度反投影 + 正弦编码 + 加到视觉 token"几乎是即插即用的 3D 注入模块,做需要空间对位的任务时值得抄;② 分布自适应动作离散比线性 256-bin 明显好,且省 token——若我们走自回归 token VLA 路线,这是低成本升级点。
  • 同生态:与 卡片-3D-VLA 同属"给基础模型注入 3D"流派,但 3D-VLA 重世界理解/预测、SpatialVLA 重动作空间的 3D 化 —— 两者正好互为对照(理解 vs 行动)。骨干 PaliGemma2 与 π0 同源;动作 token 化思路承自 RT-2/OpenVLA(见 卡片-OpenVLA)。
  • 战场判断:开源 + 权重 + RSS 接收,是当前"3D-aware 通用 VLA"里复现性最好的基线之一;做空间敏感任务时可直接拿来当 baseline / 初始化。