VLA 模型综述(具身 AI 视觉-语言-动作)¶
📌 一句话:把"视觉-语言-动作(VLA)"这条线系统梳理成 3 大研究方向——① VLA 的各个组件(视觉/语言/动作表征)、② 直接出低层动作的控制策略、③ 把长程任务拆解的高层任务规划器;并整理了配套的数据集 / 仿真器 / benchmark。是目前最常被引用的 VLA 入门地图之一。
🧰 对我们(速判)¶
- 适合谁读:刚进 VLA 想要一张全景图的人;想确认"我们做的触觉×VLA 落在哪一层"的人 → 多数触觉工作挂在"控制策略"这一支上。
- 能当地图吗:✅ 能。三分法(组件 / 控制策略 / 任务规划)清晰,可直接拿来给团队对齐术语。
- 新旧:2024-05 首发、持续修订到 2026(v8);偏奠基性综述,框架仍适用,但最新模型需另查近一年的卡片。
关键(摘要级)¶
- 📄 分类法:三大线 = 组件(vision / language / action 表征)→ 低层控制策略(预测动作)→ 高层任务规划器(拆解长程任务)。
- 📄 主要结论:VLA 的价值在于"能生成动作",把 VLM 的泛化能力接到机器人控制上;同时系统盘点了训练所需的数据、仿真与评测资源。
- 关联本库:卡片-OpenVLA、卡片-RT-2、卡片-π0 属"控制策略"支;概念-模型架构基础 可配合看。
来源¶
- 📄 A Survey on Vision-Language-Action Models for Embodied AI, arXiv 2405.14093(Yueen Ma 等,2024-05 首发)