跳转至

机器人知识库

机器人操作 / VLA 评测榜单（hub）

机器人操作 / VLA 评测榜单（hub）¶

"判断一个方法行不行"的标尺。先看常用基准，再看"看榜注意事项"(很多坑)。 ✅ arXiv 号已联网核实(2026-06-28)；仅 RLBench/Meta-World 的具体 ID 标"较可信"。LIBERO / SimplerEnv 已各出基准卡。

一、常用仿真基准（最常被 VLA 报告）¶

基准	测什么	出处(已核)
LIBERO ⭐基准卡	终身/多任务操作；4 套 Spatial/Object/Goal/100(=90+Long)	✅ 2306.03310(NeurIPS23)；VLA 报告最高频(LaWAM 98.6%)
SimplerEnv ⭐基准卡	给真机 VLA 做"真→仿"可复现评测	✅ 2405.05941(CoRL24)
CALVIN	长程、语言条件、连续任务链	✅ 2112.03227
RoboTwin / 2.0	双臂操作 + 数据生成	✅ 2.0 2506.18088；LaWAM/Fast-WAM 报告过
RLBench	100 操作任务，经典	RAL 2020（arXiv 1909.12271，较可信）
Meta-World	50 操作任务，多任务/元学习(MT10/MT50/ML)	CoRL 2020（arXiv 1910.10897，较可信）

二、跨本体 / 真机¶

Open X-Embodiment / RT-X：跨本体大规模数据集 + 评测（arXiv 2310.08864 ✅已核，本库 T3 引用过）。
真机评测：目前无统一标准，多为各论文自定任务 + 成功率(注意不可直接横比)。

三、触觉相关评测（本库重点）¶

触觉×VLA 各卡的真机任务(插拔/抓取/擦拭)+ 成功率，见 2-大脑与模型/ 各卡"关键数字"。
触觉表征评测：分类/位姿迁移(见卡片-T3 的 FoTa 实验)。

四、⚠️ 看榜注意事项（避免被数字骗）¶

任务集不同不可横比：LIBERO 的 98% 和真机的 80% 不是一回事。
样本量：很多真机每任务只 ~20 trials，方差大(见卡片-TacVLA)。
是否挑任务/挑场景：留意只报好任务。
仿真≠真机：仿真高分不代表真机能用；看有没有真机/Sim2Real 验证。
基线是否公平：同设置、同数据、同骨干才可比。
结合卡片的"对我们(可用性速判)"+ 证据档一起看，别只看 SR。

五、下一步（按需补）¶

[x] 联网核实上表 arXiv 号（2026-06-28，仅 RLBench/Meta-World 具体 ID 待最终确认）。
[x] LIBERO / SimplerEnv 基准卡 → 基准-LIBERO、基准-SimplerEnv。
[ ] 补 CALVIN / RoboTwin 基准卡；核 RLBench/Meta-World 精确 ID。
[ ] 收集各基准"当前 SOTA / 排行榜"链接（如有官方 leaderboard）。

🤖Claude 整理；基准事实以各自官网/论文为准。