THE COLOSSEUM¶
📌 一句话:专测操作策略泛化/鲁棒性的仿真基准,20 个任务 × 14 类环境扰动(物体属性、光照、相机位姿、干扰物…),系统量化"换了条件掉多少分"。
🧰 对我们(速判)¶
- 不是比"谁分高",而是比"谁掉得少"——做泛化/鲁棒性论证时很有说服力。
- 建在 RLBench 任务之上,便于把已有 RLBench 方法直接拉来做扰动评测。
- 坑:纯仿真扰动 ≠ 真机分布偏移;报告时要说清扰动维度与组合。
关键(摘要级)¶
- 📄 任务/扰动:20 个操作任务,14 个环境扰动轴。
- 📄 发现:单一扰动通常掉 30–50% SR;多扰动叠加可掉 75%+(原文)。
- 📄 指标:扰动前后成功率 SR 变化 / 泛化差距。