VLABench¶
📌 一句话:面向 VLA 模型的大规模语言条件操作基准,100 个任务类别 + 2000+ 物体,专测长程多步推理——既评动作策略,也评背后语言模型的推理能力。
🧰 对我们(速判)¶
- 想专门评 VLA / 语言条件长程推理时对口,比纯动作基准多了"会不会推理"这一维。
- 任务带常识/多步规划要求,能区分"只会照搬演示" vs "真懂指令"。
- 坑:较新,社区基线还在积累;纯仿真,需真机佐证。
关键(摘要级)¶
- 📄 任务数:100 个任务类别。
- 📄 规模:2000+ 物体,强调长程推理与自然语言指令。
- 📄 指标:任务成功率 SR + 推理/语言能力评估。