跳转至

机器人知识库

CALVIN —— 语言条件·长程操作基准（连续多任务串联）

CALVIN¶

📌 一句话：仿真里的语言条件长程操作基准，机器人要按自然语言指令连续串联多个子任务（Long-horizon）；4 个环境（A/B/C/D）专门考跨环境泛化。

🧰 对我们（速判）¶

测语言条件策略的标配老牌基准，做"指令→连续操作"的方法常报 CALVIN。
经典设置是 D→D / ABC→D 等划分，后者考零样本迁移到新环境，别拿不同划分横比。
坑：评测是"连串 5 个任务"，看的是连续成功几个（链式衰减），单任务 SR 不可直接和别的基准比。

关键（摘要级）¶

📄 任务/场景：4 个桌面环境 A/B/C/D（桌面布局/纹理不同），语言指令驱动。
📄 指标：长程任务连续完成数 / 平均完成长度（一条指令链最多 5 个子任务）。
📄 规模：含人类遥操作演示数据；数字以原文为准（待核细项）。

来源¶

📄 CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, arXiv 2112.03227 · 主页

关联：榜单-机器人操作与VLA评测