跳转至

机器人知识库

THE COLOSSEUM —— 操作泛化压力测试（14 类环境扰动）

THE COLOSSEUM¶

📌 一句话：专测操作策略泛化/鲁棒性的仿真基准，20 个任务 × 14 类环境扰动（物体属性、光照、相机位姿、干扰物…），系统量化"换了条件掉多少分"。

🧰 对我们（速判）¶

不是比"谁分高"，而是比"谁掉得少"——做泛化/鲁棒性论证时很有说服力。
建在 RLBench 任务之上，便于把已有 RLBench 方法直接拉来做扰动评测。
坑：纯仿真扰动 ≠ 真机分布偏移；报告时要说清扰动维度与组合。

关键（摘要级）¶

📄 任务/扰动：20 个操作任务，14 个环境扰动轴。
📄 发现：单一扰动通常掉 30–50% SR；多扰动叠加可掉 75%+（原文）。
📄 指标：扰动前后成功率 SR 变化 / 泛化差距。

来源¶

📄 THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation, arXiv 2402.08191 · 主页

关联：榜单-机器人操作与VLA评测