跳转至

机器人知识库

VLA 模型综述 —— 具身 AI 视觉-语言-动作模型全景（最常被引的入门地图）

VLA 模型综述（具身 AI 视觉-语言-动作）¶

📌 一句话：把"视觉-语言-动作（VLA）"这条线系统梳理成 3 大研究方向——① VLA 的各个组件（视觉/语言/动作表征）、② 直接出低层动作的控制策略、③ 把长程任务拆解的高层任务规划器；并整理了配套的数据集 / 仿真器 / benchmark。是目前最常被引用的 VLA 入门地图之一。

🧰 对我们（速判）¶

适合谁读：刚进 VLA 想要一张全景图的人；想确认"我们做的触觉×VLA 落在哪一层"的人 → 多数触觉工作挂在"控制策略"这一支上。
能当地图吗：✅ 能。三分法（组件 / 控制策略 / 任务规划）清晰，可直接拿来给团队对齐术语。
新旧：2024-05 首发、持续修订到 2026（v8）；偏奠基性综述，框架仍适用，但最新模型需另查近一年的卡片。

关键（摘要级）¶

📄 分类法：三大线 = 组件（vision / language / action 表征）→ 低层控制策略（预测动作）→ 高层任务规划器（拆解长程任务）。
📄 主要结论：VLA 的价值在于"能生成动作"，把 VLM 的泛化能力接到机器人控制上；同时系统盘点了训练所需的数据、仿真与评测资源。
关联本库：卡片-OpenVLA、卡片-RT-2、卡片-π0 属"控制策略"支；概念-模型架构基础可配合看。

来源¶

📄 A Survey on Vision-Language-Action Models for Embodied AI, arXiv 2405.14093（Yueen Ma 等，2024-05 首发）