CALVIN¶
📌 一句话:仿真里的语言条件长程操作基准,机器人要按自然语言指令连续串联多个子任务(Long-horizon);4 个环境(A/B/C/D)专门考跨环境泛化。
🧰 对我们(速判)¶
- 测语言条件策略的标配老牌基准,做"指令→连续操作"的方法常报 CALVIN。
- 经典设置是 D→D / ABC→D 等划分,后者考零样本迁移到新环境,别拿不同划分横比。
- 坑:评测是"连串 5 个任务",看的是连续成功几个(链式衰减),单任务 SR 不可直接和别的基准比。
关键(摘要级)¶
- 📄 任务/场景:4 个桌面环境 A/B/C/D(桌面布局/纹理不同),语言指令驱动。
- 📄 指标:长程任务连续完成数 / 平均完成长度(一条指令链最多 5 个子任务)。
- 📄 规模:含人类遥操作演示数据;数字以原文为准(待核细项)。