跳转至

机器人知识库

SpatialVLA —— 给 VLA 注入 3D 空间表示

SpatialVLA（空间表示增强的 VLA）¶

📌 一句话：主张"空间理解是操作的关键"，给 VLA 加两件事——Ego3D Position Encoding（注入 3D 信息）+ Adaptive Action Grids（自适应表示空间动作）。 🔬 全文精读 + 关键图 + 数字：详读-SpatialVLA

🧰 对我们（速判）¶

能借：✅ 代码 + ✅ 权重。做需要精细空间/对位的任务（插拔、对准）时，3D 位置编码思路可借。
资源：在通用 VLA 上叠加 3D 表示模块。
证据：A（开源 + 项目页）。

关键（摘要级）¶

📄 Ego3D Position Encoding：把 3D 信息注入视觉表示。
📄 Adaptive Action Grids：自适应离散化的动作空间表示。

来源¶

📄 SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model, arXiv 2501.15830 · 项目页 · 代码
关联：卡片-3D-VLA · 卡片-OpenVLA · 概念-模型架构基础