跳转至

机器人操作 / VLA 评测榜单(hub)

"判断一个方法行不行"的标尺。先看常用基准,再看"看榜注意事项"(很多坑)。 ✅ arXiv 号已联网核实(2026-06-28);仅 RLBench/Meta-World 的具体 ID 标"较可信"。LIBERO / SimplerEnv 已各出基准卡。

一、常用仿真基准(最常被 VLA 报告)

基准 测什么 出处(已核)
LIBERO ⭐基准卡 终身/多任务操作;4 套 Spatial/Object/Goal/100(=90+Long) 2306.03310(NeurIPS23);VLA 报告最高频(LaWAM 98.6%)
SimplerEnv ⭐基准卡 给真机 VLA 做"真→仿"可复现评测 2405.05941(CoRL24)
CALVIN 长程、语言条件、连续任务链 2112.03227
RoboTwin / 2.0 双臂操作 + 数据生成 ✅ 2.0 2506.18088;LaWAM/Fast-WAM 报告过
RLBench 100 操作任务,经典 RAL 2020(arXiv 1909.12271,较可信)
Meta-World 50 操作任务,多任务/元学习(MT10/MT50/ML) CoRL 2020(arXiv 1910.10897,较可信)

二、跨本体 / 真机

  • Open X-Embodiment / RT-X:跨本体大规模数据集 + 评测(arXiv 2310.08864 ✅已核,本库 T3 引用过)。
  • 真机评测:目前无统一标准,多为各论文自定任务 + 成功率(注意不可直接横比)。

三、触觉相关评测(本库重点)

  • 触觉×VLA 各卡的真机任务(插拔/抓取/擦拭)+ 成功率,见 2-大脑与模型/ 各卡"关键数字"。
  • 触觉表征评测:分类/位姿迁移(见 卡片-T3 的 FoTa 实验)。

四、⚠️ 看榜注意事项(避免被数字骗)

  1. 任务集不同不可横比:LIBERO 的 98% 和真机的 80% 不是一回事。
  2. 样本量:很多真机每任务只 ~20 trials,方差大(见 卡片-TacVLA)。
  3. 是否挑任务/挑场景:留意只报好任务。
  4. 仿真≠真机:仿真高分不代表真机能用;看有没有真机/Sim2Real 验证。
  5. 基线是否公平:同设置、同数据、同骨干才可比。
  6. 结合卡片的"对我们(可用性速判)"+ 证据档一起看,别只看 SR。

五、下一步(按需补)

  • [x] 联网核实上表 arXiv 号(2026-06-28,仅 RLBench/Meta-World 具体 ID 待最终确认)。
  • [x] LIBERO / SimplerEnv 基准卡 → 基准-LIBERO基准-SimplerEnv
  • [ ] 补 CALVIN / RoboTwin 基准卡;核 RLBench/Meta-World 精确 ID。
  • [ ] 收集各基准"当前 SOTA / 排行榜"链接(如有官方 leaderboard)。

🤖Claude 整理;基准事实以各自官网/论文为准。