跳转至

SpatialVLA(空间表示增强的 VLA)

📌 一句话:主张"空间理解是操作的关键",给 VLA 加两件事——Ego3D Position Encoding(注入 3D 信息)+ Adaptive Action Grids(自适应表示空间动作)。 🔬 全文精读 + 关键图 + 数字详读-SpatialVLA

🧰 对我们(速判)

  • 能借:✅ 代码 + ✅ 权重。做需要精细空间/对位的任务(插拔、对准)时,3D 位置编码思路可借。
  • 资源:在通用 VLA 上叠加 3D 表示模块。
  • 证据:A(开源 + 项目页)。

关键(摘要级)

  • 📄 Ego3D Position Encoding:把 3D 信息注入视觉表示。
  • 📄 Adaptive Action Grids:自适应离散化的动作空间表示。

来源