跳转至

HPT:给五花八门的机器人造一颗"通用大脑主干"

📅 2024-09 · 🏛 MIT/Meta(何恺明组)· 🏷 跨本体预训练 📌 一句话省流:不同机器人传感器/关节都不一样,没法共用模型。HPT 给每个机器人配个小"插头"(stem)把它的本体感+视觉压成统一 token,再喂给一个所有机器人共享的主干网(trunk);换新机器人只重训插头,未见任务 +20~30%。 ≈ 打比方:造一颗"通用大脑芯",换机器人(壳)只换插头,主干不重学。 🔬 详读:详读-HPT 🎬 项目页 · 代码

🧰 对我们(可用性速判)

  • 对我们的用处跨本体共享表征的最干净骨架(stem 各本体 + trunk 共享)。触觉迁移想法:挂一个"触觉 stem"到共享主干,比每个触觉传感器单独训更省(和 卡片-T3/卡片-AnyTouch"跨触觉统一"是更上位的跨本体版)。强经验:本体感很关键(去掉掉 16+pp)。
  • 真实性:✅ 全文精读 + NeurIPS 2024 + 何恺明组 + 开源。
  • 训练/微调资源:预训练大(52 数据集/1.55 亿样本/HPT-Huge 1.1B),但下游冻结主干、只微调 stem/head,轻。
  • 能借多少(开源):✅ 代码 + 权重(liruiw/HPT)。
  • 可用性结论思路借鉴 / 表征可复用
  • 🔬 详读(全文):详读-HPT

亮点(全文精读后定位)

  • stem/trunk/head 三段:stem(本体感 MLP+注意力→16 token、视觉冻结 ResNet18+交叉注意→16 token) + 共享 trunk(decoder transformer) + 任务 head。
  • 缩放律:验证损失随轨迹数 log-线性降;模型 1M→1B 更好;52 本体比 27 本体泛化更好
  • 数据金字塔:42 OXE 真机 + 7 仿真 + 3 人类视频 + 1 部署机器人。
  • 本体感关键(消融):从零无本体感 26.7% vs 有 43.3%。

关键数字(每条带来源 [n])

  • [1] 规模:52 数据集 / ~27 万轨迹 / ~1.55 亿样本 / HPT-Huge 1.1B。✅📄
  • [2] 仿真冻结主干比从零 +20~30%;真机 HPT-Base 70.0%(XL 76.7) vs 从零 43.3,超 R3M 50/VC-1 53.3。✅📄
  • [3] 本体感消融:无本体感 26.7% << 有 43.3%(差 16+pp)。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2409.20537,NeurIPS 2024(✅ 全文精读)。
  • 代码/权重:✅ 开源(liruiw/HPT)。
  • 证据等级:A → 权重:中(偏上)

🧪 复现条件与成本(暂不亲做,只估)

  • 预训练:52 数据集汇聚 + 多卡(重);下游仅微调 stem/head(轻)。
  • 侧证判价值:NeurIPS ✅ / 开源 ✅ / 缩放律+本体感消融硬 ✅。

💡 我的批注 / 判断(🤖,待人复核)

  • 卡片-GR00T-N1(数据金字塔)、卡片-RT-1(吸收异构)同主题,HPT 给"共享主干"最干净的实现。
  • 本体感(proprioception)很关键(去掉掉 16+pp)——做我们策略时别只喂视觉/触觉、要带本体状态。挂"触觉 stem"是直接可试的迁移。

来源编号

  • [1][2][3] arXiv 2409.20537 全文(✅,见 详读-HPT)。