机器人操作 / VLA 评测榜单(hub)¶
"判断一个方法行不行"的标尺。先看常用基准,再看"看榜注意事项"(很多坑)。 ✅ arXiv 号已联网核实(2026-06-28);仅 RLBench/Meta-World 的具体 ID 标"较可信"。LIBERO / SimplerEnv 已各出基准卡。
一、常用仿真基准(最常被 VLA 报告)¶
| 基准 | 测什么 | 出处(已核) |
|---|---|---|
| LIBERO ⭐基准卡 | 终身/多任务操作;4 套 Spatial/Object/Goal/100(=90+Long) | ✅ 2306.03310(NeurIPS23);VLA 报告最高频(LaWAM 98.6%) |
| SimplerEnv ⭐基准卡 | 给真机 VLA 做"真→仿"可复现评测 | ✅ 2405.05941(CoRL24) |
| CALVIN | 长程、语言条件、连续任务链 | ✅ 2112.03227 |
| RoboTwin / 2.0 | 双臂操作 + 数据生成 | ✅ 2.0 2506.18088;LaWAM/Fast-WAM 报告过 |
| RLBench | 100 操作任务,经典 | RAL 2020(arXiv 1909.12271,较可信) |
| Meta-World | 50 操作任务,多任务/元学习(MT10/MT50/ML) | CoRL 2020(arXiv 1910.10897,较可信) |
二、跨本体 / 真机¶
- Open X-Embodiment / RT-X:跨本体大规模数据集 + 评测(arXiv 2310.08864 ✅已核,本库 T3 引用过)。
- 真机评测:目前无统一标准,多为各论文自定任务 + 成功率(注意不可直接横比)。
三、触觉相关评测(本库重点)¶
- 触觉×VLA 各卡的真机任务(插拔/抓取/擦拭)+ 成功率,见
2-大脑与模型/各卡"关键数字"。 - 触觉表征评测:分类/位姿迁移(见 卡片-T3 的 FoTa 实验)。
四、⚠️ 看榜注意事项(避免被数字骗)¶
- 任务集不同不可横比:LIBERO 的 98% 和真机的 80% 不是一回事。
- 样本量:很多真机每任务只 ~20 trials,方差大(见 卡片-TacVLA)。
- 是否挑任务/挑场景:留意只报好任务。
- 仿真≠真机:仿真高分不代表真机能用;看有没有真机/Sim2Real 验证。
- 基线是否公平:同设置、同数据、同骨干才可比。
- 结合卡片的"对我们(可用性速判)"+ 证据档一起看,别只看 SR。
五、下一步(按需补)¶
- [x] 联网核实上表 arXiv 号(2026-06-28,仅 RLBench/Meta-World 具体 ID 待最终确认)。
- [x] LIBERO / SimplerEnv 基准卡 → 基准-LIBERO、基准-SimplerEnv。
- [ ] 补 CALVIN / RoboTwin 基准卡;核 RLBench/Meta-World 精确 ID。
- [ ] 收集各基准"当前 SOTA / 排行榜"链接(如有官方 leaderboard)。
🤖Claude 整理;基准事实以各自官网/论文为准。