跳转至

VLA 模型综述(具身 AI 视觉-语言-动作)

📌 一句话:把"视觉-语言-动作(VLA)"这条线系统梳理成 3 大研究方向——① VLA 的各个组件(视觉/语言/动作表征)、② 直接出低层动作的控制策略、③ 把长程任务拆解的高层任务规划器;并整理了配套的数据集 / 仿真器 / benchmark。是目前最常被引用的 VLA 入门地图之一。

🧰 对我们(速判)

  • 适合谁读:刚进 VLA 想要一张全景图的人;想确认"我们做的触觉×VLA 落在哪一层"的人 → 多数触觉工作挂在"控制策略"这一支上。
  • 能当地图吗:✅ 能。三分法(组件 / 控制策略 / 任务规划)清晰,可直接拿来给团队对齐术语。
  • 新旧:2024-05 首发、持续修订到 2026(v8);偏奠基性综述,框架仍适用,但最新模型需另查近一年的卡片。

关键(摘要级)

  • 📄 分类法:三大线 = 组件(vision / language / action 表征)→ 低层控制策略(预测动作)→ 高层任务规划器(拆解长程任务)。
  • 📄 主要结论:VLA 的价值在于"能生成动作",把 VLM 的泛化能力接到机器人控制上;同时系统盘点了训练所需的数据、仿真与评测资源。
  • 关联本库:卡片-OpenVLA卡片-RT-2卡片-π0 属"控制策略"支;概念-模型架构基础 可配合看。

来源