跳转至

THE COLOSSEUM

📌 一句话:专测操作策略泛化/鲁棒性的仿真基准,20 个任务 × 14 类环境扰动(物体属性、光照、相机位姿、干扰物…),系统量化"换了条件掉多少分"。

🧰 对我们(速判)

  • 不是比"谁分高",而是比"谁掉得少"——做泛化/鲁棒性论证时很有说服力。
  • 建在 RLBench 任务之上,便于把已有 RLBench 方法直接拉来做扰动评测。
  • 坑:纯仿真扰动 ≠ 真机分布偏移;报告时要说清扰动维度与组合。

关键(摘要级)

  • 📄 任务/扰动:20 个操作任务,14 个环境扰动轴。
  • 📄 发现:单一扰动通常掉 30–50% SR;多扰动叠加可掉 75%+(原文)。
  • 📄 指标:扰动前后成功率 SR 变化 / 泛化差距

来源

关联:榜单-机器人操作与VLA评测