跳转至

HOVER:把"导航/操作/遥操作各要一套控制器"统一成一个多模态全身策略

📅 2024-10(ICRA 2025) · 🏛 NVIDIA GEAR + CMU/Berkeley/UT Austin/UCSD · 🏷 人形全身控制 📌 一句话省流:人形干不同活要不同"控制模式"(导航要跟根速度、桌面操作要跟上肢关节角、遥操作要跟关键点位置),以前每种模式各训一个策略、互不兼容。HOVER 的洞见:全身运动模仿可以当所有模式的共同底座——先用 RL 训一个"照着 MoCap 全身模仿"的 oracle,再蒸馏(DAgger)成一个多模态通才策略,靠 mode-mask + sparsity-mask 随机激活命令空间的任意子集。一个策略覆盖 15+ 控制模式(把 ExBody/H2O/OmniH2O/HumanPlus 都当子集),还能模式间无缝切换,且每个模式都打赢各自的专家策略。 ≈ 打比方:不再"一个任务配一把遥控器",而是一把万能遥控器——按住哪几个键(mask)就控哪部分,且比任何专用遥控器都好用。 🎬 演示/资源:项目页 · 代码 github.com/NVlabs/HOVER

🧰 对我们(可用性速判)

  • 对我们的用处直接喂 reflect-g1-repro 项目——人形全身控制的当红方法,开源、真机(Unitree H1)验证。想复现"人形自主栈"的底层全身控制层,HOVER 是首选参照(对标 Flexion 的 Reflex 层 追踪-Flexion-Reflect)。
  • 真实性(前期):高。ICRA 2025 + 代码开源(NVlabs/HOVER) + 真机 H1 + 消融(32/32 指标) → 证据 A。
  • 训练/微调资源:RL 训 oracle + DAgger 蒸馏,IsaacGym GPU 并行;比端到端每模式各训省很多。
  • 能借多少(开源):✅ 代码开源;依赖 AMASS(公开)+ Isaac Lab 生态。
  • 可用性结论直接可用/可复现;换本体(H1→G1)需重做运动重定向 + 域随机化调参。
  • 📖 详读(按需):暂未做(本卡覆盖全文要点)。

亮点到底在哪(读全文后定位)

  • 亮点=统一命令空间 + oracle 蒸馏 + 掩码
  • 统一多模态命令空间:上/下半身独立 × 三种模式——运动学位置跟踪 / 局部关节角跟踪 / 根跟踪(速度/高度/姿态);满足 generality(覆盖已有配置、能接 VR/手柄/动捕/外骨骼) + atomicity(各维独立、任意组合)。ExBody/H2O/OmniH2O/HumanPlus/MHC 都是它的子集(Table I)。[1]
  • oracle 运动模仿:先用 PPO 训一个特权 oracle 照 AMASS(重定向到人形)做全身运动模仿——人类动作先验提供平衡/协调等可复用运动技能。[1]
  • 蒸馏成多模态学生:DAgger 把 oracle 动作蒸给学生;mode-mask 选哪种模式、sparsity-mask(Bernoulli 0.5)选跟踪哪些具体维度 → 一个策略学会所有模式。[1]
  • 关键结论蒸馏的通才 > RL 单独训的专家(共享全身物理知识:平衡/人形运动/精确肢体控制),而单模式专家易过拟合到各自奖励。

🧬 与其他工作的关系

  • GEAR + 高校:Tairan He、Wenli Xiao(CMU)、Jan Kautz、Guanya Shi(CMU)、Xiaolong Wang(UCSD)、Jim Fan、Yuke Zhu(GEAR leads)。承接 H2O→OmniH2O(同组人形遥操作),把它们统一。
  • 区别:ExBody/H2O/OmniH2O/HumanPlus 各自单模式;MHC 多模式但不支持任意子集;图形界 MaskedMimic 思路相近但需额外训练。HOVER = 一个策略、任意模式子集、可上真机
  • 谱系:属 GEAR 人形全身控制线,与 GR00T N1.6(卡片-GR00T-N1)的"全身 loco-manipulation"、SONIC/VIRAL 同族。

关键数字(全文核实)

  • 19-DOF Unitree H1(~51.5kg/1.8m);支持 15+ 控制模式。[1]
  • 仿真:每种模式下 HOVER 在 ≥7/12 指标超过对应专家(ExBody/H2O/OmniH2O/HumanPlus)。[Table III]
  • vs 多模态 RL 基线32/32 指标全胜(8 模式 × 4 指标)。[Fig.4]
  • 真机(20 站立动作)11/12 指标超专家;可跟踪根俯仰、全身运动学(含动态跑步),Vision Pro 遥操作随机 mask 头/手仍稳。[Table V]

🔎 证据与可信度

  • 论文arXiv 2410.21229(NVIDIA GEAR 等,ICRA 2025)✅ 全文已读。
  • 代码github.com/NVlabs/HOVER ✅ 开源。
  • 证据等级:A(论文+顶会+开源+真机+消融充分)→ 权重:高

🧪 复现/采用成本

  • 前提:Isaac Lab/IsaacGym + AMASS + 人形(H1/G1) + 域随机化 sim2real。
  • 换 G1:重做 SMPL↔人形运动重定向 + 重调域随机化;网络就是 3 层 MLP[512,256,128],不重。
  • 侧证判价值:开源、ICRA、真机、覆盖 15+ 模式、32/32 胜基线。

🧱 局限(正文)

  • 暂无自动模式切换模块(切换靠外部指定;作者列为未来工作)。
  • 全身运动模仿依赖 MoCap 数据质量与重定向;高度动态/接触丰富的 loco-manipulation 仍是开放问题。
  • 仅全身运动跟踪层(不含高层任务/语言);要接 VLA 大脑需另配(如 GR00T)。

💡 我的批注 / 判断

  • 对 reflect-g1-repro 的直接价值:HOVER 就是"人形自主栈"里最底层全身控制的开源当红实现——对标 Flexion Reflect 的 Reflex 层。复现 G1 自主栈,底层控制可直接起于 HOVER(换重定向)。
  • 可复用模式:"统一命令空间 + mask 选子集 + 从全能 oracle 蒸馏"是把"多个专用控制器"合一的通法;和 卡片-GraspGen-X 用统一表示跨夹爪、卡片-FTP-1 用 MTTS 跨触觉传感器同构——异构接口 → 统一空间 + 掩码/条件 → 一个通才
  • 谱系:这也是 GEAR "把散落的专家统一成通才"的一贯打法(呼应 GR00T 跨本体、Voyager 技能库)。

来源编号