基准 · LIBERO¶
📌 一句话:仿真里的多任务/终身学习操作基准,4 套任务专门解耦"该学什么知识";现在被当成 VLA 通用操作基准最常报告(本库 卡片-LaWAM 等都报 LIBERO)。 🎬 论文 · 代码
测什么¶
评"在一串任务上持续学习/迁移知识"的能力;也常被简化当作"通用操作策略好不好"的横比尺。基于程序化生成 + 高质量人类演示。
任务与规模(已核)¶
- LIBERO-Spatial:同一组物体,只换空间关系 → 考空间知识。
- LIBERO-Object:每个任务一个新物体 → 考物体知识。
- LIBERO-Goal:物体/布局固定,只换目标 → 考动作/行为知识。
- LIBERO-100 = LIBERO-90(短程,预训练数据源) + LIBERO-Long(10 个长程,下游评测)。
- 前三套各 10 任务,用于解耦"陈述性 vs 程序性"知识迁移。
指标¶
按 suite 的平均成功率 SR(如 LIBERO-Long 平均 SR)。
🧰 对我们¶
- 入门复现首选:纯仿真、有数据有 demo、社区基线多,最容易跑通对比。
- 看本库卡片的 LIBERO 数字时,认准是哪套(Spatial/Object/Goal/Long)——Long 最难,别拿 Long 和别的横比。
⚠️ 陷阱¶
- 仿真高分 ≠ 真机能用(要看有没有真机/SimplerEnv 佐证)。
- 不同方法用的演示数/微调设置不同,横比要同条件。
- "98%+"已接近饱和,区分度在 Long 与真机。