跳转至

HPT:给五花八门的机器人造一颗"通用大脑主干"

📅 2024-09 · 🏛 MIT/Meta(何恺明组)· 🏷 跨本体预训练 📌 一句话省流:用一个共享的主干网络(trunk)去吃几十种不同机器人的数据,学出"与本体、任务都无关"的通用表征;换到新机器人/新任务时只需小改再微调,未见任务性能 +20%。 ≈ 打比方:像造一颗"通用大脑芯",换不同机器人(壳)只要换"插头"(stem),主干不用重学。 🎬 演示:见项目页 ⚠️ 摘要级:仅读 arXiv 摘要,🧬关系为推断(🔶),待补全文精读

🧰 对我们(可用性速判)

  • 对我们的用处思路借鉴——"本体异构"是机器人数据最大的痛,HPT 用 stem(对齐各本体的本体感+视觉)+trunk(共享主干) 解耦的办法值得参考。对触觉×VLA 的钩子:触觉也是一种"本体相关、传感器各异"的模态,能否仿 stem 思路做"触觉 stem → 共享主干"。
  • 真实性(前期):何恺明/陈鑫磊组 + NeurIPS 2024,可信度高;🔶 具体数字未逐条核。
  • 训练/微调资源:预训练规模大(52 数据集),但下游只微调,用户侧成本可控。
  • 能借多少(开源):✅ 代码 + 视频(项目页)。
  • 可用性结论思路借鉴 / 表征可复用
  • 📖 详读(按需):暂无(摘要级)。

亮点(摘要级定位)

  • stem/trunk 架构:把不同机器人的本体感(proprioception)+视觉对齐成 token 序列 → 共享 Transformer 主干学通用表征。
  • 规模:横跨 52 个数据集研究预训练。
  • 未见任务 +20%:在仿真与真机的新任务上,微调后比基线高 20%+。
  • 直击痛点:把"本体异构"从障碍变成可迁移的资产。

🧬 与其他工作的关系(🔶 推断,待全文核)

  • 同类目标、不同路线:和 卡片-Open-X-Embodiment / 卡片-Octo / 卡片-RoboCat 的"跨本体"目标一致,但 HPT 走的是"显式共享主干 + 每本体专属 stem"。
  • 血缘:何恺明系(MAE/ResNet)把"可扩展预训练"思路带到机器人策略。

关键数字(每条带来源 [n])

  • [1] 横跨 52 个数据集做预训练研究(✅ arXiv 摘要)。
  • [2] 微调后未见任务性能 +20%(✅ arXiv 摘要,仿真+真机)。

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2409.20537,NeurIPS 2024(已核摘要;未读全文)。
  • 代码/数据:✅ 代码+视频(项目页);52 数据集。
  • 证据等级:C(摘要级)→ 权重:中(偏上);核心主张 ✅,关系 🔶。

🧪 复现条件与成本(暂不亲做,只估)

  • 预训练:需大算力 + 52 数据集汇聚(重)。
  • 下游:仅微调 trunk,轻。
  • 时间估计:复用其预训练权重做下游约 1–2 周;从头预训练很重。🔶

💡 我的批注 / 判断(🤖,待人复核)

  • 升全文候选:若我们将来要"跨本体/跨传感器"统一表征,HPT 的 stem/trunk 是直接可借的骨架。
  • 触觉钩子:把"触觉 stem"挂到共享主干,可能比每个触觉传感器单独训更省——对照 卡片-T3卡片-AnyTouch(它们已在做"跨触觉传感器统一表征",HPT 是更上位的"跨本体"版本)。

来源编号

  • [1][2] arXiv 2409.20537 摘要(✅)。
  • 🧬 关系:🤖 推断(🔶 待全文核)。