几千只机器狗在 GPU 里同时学走路,4 分钟练成 → 直接搬到真狗身上¶
📅 2021-09 · 🏛 ETH Zurich(RSL) + NVIDIA · 🏷 腿足运动/sim-RL/sim2real 📌 一句话省流:用 NVIDIA Isaac Gym 在一块 GPU 上同时仿真几千只机器人一起练强化学习,平地走路4 分钟练成、复杂地形20 分钟,再把策略原样装到真 ANYmal 四足上能走楼梯越障——把以前要几天到几个月的训练砍到分钟级。 ≈ 打比方:以前是一个学徒慢慢练几天;现在让 4096 个分身在同一块显卡里同时练,几分钟集体出师,且经验能直接用到真身上。 🎬 演示:项目页 legged_gym(含视频) · 代码 🔬 全文精读 + 全表数字 + 消融:详读-LearnToWalkInMinutes
🧰 对我们(可用性速判)¶
- 对我们的用处:这是"数千并行环境 + 单 GPU 分钟级训练 + sim-to-real"范式的奠基论文,后来 Isaac Gym → Isaac Lab、RSL-RL 训练库都源于此。它直接对应 追踪-Flexion-Reflect 三层栈的底层全身控制(Reflex)+ 训练引擎那一环——Flexion 的 CEO Rudin、CTO Hoeller 正是本文一、二作。读懂它=读懂 Flexion 底层"用什么把腿足/全身控制技能训出来"。
- 真实性(前期):高。CoRL 2021 正式发表 + 全开源 + 真机验证 + 被海量后续工作奠基 → 证据 A。
- 训练/微调资源:极低。单台工作站(i9-11900k + 单块 RTX A6000),平地 <4 分钟、复杂地形 <20 分钟(1500 次策略更新);4096 机器人开渲染约需 9GB 显存、不渲染 6GB。无需采真机数据(全仿真训练)。
- 能借多少(开源):✅ 训练代码完全开源(
legged_gym+ 其 PPO 实现,即后来的 RSL-RL);✅ 课程/奖励/sim2real 配方在正文+附录逐条给出,可直接照搬;依赖 NVIDIA Isaac Gym(免费可得)。 - 可用性结论:思路与代码均可直接复用。是腿足/全身控制 RL 训练的事实标准起点;要做仿真训练管线,从这套 codebase 起步性价比最高。
亮点¶
- 亮点主要在"系统 + 工程洞见",不在新模型:把 PPO 完整搬到 GPU 端到端(仿真+推理+更新都在 GPU,绕开 PCIe 瓶颈),并指出大规模并行下超参要反着调——机器人数量↑、每机器人步数
nsteps↓(但不能低于 25 步/0.5s,否则 GAE 失效)、minibatch 反而要开到几万。 - game-inspired 自动课程:几千机器人按地形难度分级,走出边界就升级、走不够就降级、通关就随机回炉防遗忘;零调参、近零开销,天然适配大规模并行。
- time-out bootstrapping:区分"摔倒/到目标"reset 与"超时"reset,对超时用 critic 自举补偿,奖励提升约 10–20%(消融,附录)。
- 真机零改动迁移:策略在真 ANYmal C 上固定不变、不加滤波/约束检查,直接走楼梯越障。
🧬 与其他工作的关系¶
- 承接谁:建立在 Isaac Gym([8],Makoviychuk 等 NeurIPS 2021,本文作者 Hoeller/Rudin 亦是其作者)之上;课程思路借鉴 Lee 等"Learning quadrupedal locomotion over challenging terrain"([16],Science Robotics 2020)但用 game-inspired 课程替换其 particle filter。
- 区别/推进:前作训练动辄 12–120 小时([16][17][18][19]),本文把同类感知运动策略压到 <20 分钟,数量级提速。
- 它奠基了谁:
legged_gym+ 其 PPO(→ RSL-RL 库)成为腿足 RL 事实标准;Isaac Gym 演进为 Isaac Lab。这是 Flexion 底层训练引擎的技术血统(详见 追踪-Flexion-Reflect)。
关键数字(每条带来源 [n])¶
- 平地策略 <4 分钟、复杂地形 <20 分钟 训成(1500 次策略更新)[1]
- 部署策略配置:4096 机器人 + batch 98304 + 1500 次更新;训练机 i9-11900k + RTX A6000[1]
- 最优权衡区:2048–4096 机器人、batch ≈100k–200k;基线 20000 机器人/nsteps=50/batch=1M 性能最好但最慢[1]
nsteps下限 25 步(0.5s),再低 GAE 学不动;策略 50Hz、仿真步 0.005s(4 仿真步/策略步)[1]- 真机成功率:楼梯阶高 0.2m 近 100%;坡度 >25° 爬不上去(只能滑下)[2]
- sim→real:最大速度指令从仿真 0.75 m/s 降到真机 0.6 m/s(高度图来自 Lidar 高程图,不完美)[2]
- 显存:4096 机器人开渲染 9GB、不渲染 6GB(平地 7/5GB)[3]
- 泛化机型:ANYmal B/C、C+臂(+20%重量)、Unitree A1、双足 Cassie 均可同套训出[2]
🔎 证据与可信度(源头决定权重,见 _卡片规范)¶
- 论文:arXiv 2109.11978(v3, 2022-08-19)· CoRL 2021
- 代码:✅ 完全开源(
legged_gym,含 PPO/RSL-RL) - 数据:N/A —— 全仿真训练,无需外部数据集
- 第三方评阅/复现:CoRL 正式录用;社区复现/二次开发极活跃(事实标准 codebase)
- 证据等级:A → 权重:高
🧪 复现条件与成本(暂不亲做,只估)¶
- 硬件:一台带单块现代 NVIDIA GPU 的工作站即可(原文 RTX A6000,48GB;实际 4096 机器人仅需 6–9GB,消费级卡足够)。真机验证才需 ANYmal(昂贵,非必需)。
- 数据:无需采集,地形程序化生成。
- 算力:单 GPU、分钟级;远低于多数 RL 工作。
- 时间估计:装好 Isaac Gym + legged_gym 后,当天即可跑通平地/地形训练;真机迁移另需机器人与标定。
- 侧证判价值:数据 N/A · 代码✅开源 · 第三方复现✅极广 · 硬件✅易得(仿真侧) · 样本量——真机为定性/少量 trial,仿真成功率为大样本统计。
💡 我的批注 / 判断¶
- 🤖+🧑 这篇是理解 Flexion 的钥匙:Flexion 未发公司论文,但 Reflect 底层"Transformer 全身控制 + RL 技能库"的训练引擎血统,几乎可确定就是本文 + 后续 Isaac Lab/RSL-RL 这一脉(Rudin/Hoeller 为本文核心作者)。卡里把这条血统点明,便于后续追踪 Flexion 技术走向。
- 🤖 它的"贡献是系统与工程洞见而非新算法"很值得我们借鉴——真正落地价值在于把训练时间砍到可反复迭代,这正是 Flexion 强调"快速训技能库"的底气来源。
- 📄 局限要诚实:真机证据偏定性(少量 trial、需降速、高度图不完美);它明确不追求最强鲁棒性,把 teacher-student([19] Wild ANYmal)等留作 future work。
来源编号¶
- [1] 训练时间/并行规模/超参/硬件:arXiv 2109.11978 正文 §2、§4.2、附录 A.4(PPO 超参表)。
- [2] 成功率/sim2real/多机型:正文 §4.2–§4.3、Fig.5–7。
- [3] 显存/吞吐:附录 A.1、Fig.9。