跳转至

机器人知识库

VLABench —— VLA 长程推理操作大规模基准

VLABench¶

📌 一句话：面向 VLA 模型的大规模语言条件操作基准，100 个任务类别 + 2000+ 物体，专测长程多步推理——既评动作策略，也评背后语言模型的推理能力。

🧰 对我们（速判）¶

想专门评 VLA / 语言条件长程推理时对口，比纯动作基准多了"会不会推理"这一维。
任务带常识/多步规划要求，能区分"只会照搬演示" vs "真懂指令"。
坑：较新，社区基线还在积累；纯仿真，需真机佐证。

关键（摘要级）¶

📄 任务数：100 个任务类别。
📄 规模：2000+ 物体，强调长程推理与自然语言指令。
📄 指标：任务成功率 SR + 推理/语言能力评估。

来源¶

📄 VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks, arXiv 2412.18194 · 主页

关联：榜单-机器人操作与VLA评测