跳转至

机器人知识库

HPT —— 用共享"主干网"吃几十种机器人数据，学跨本体通用表征（何恺明组）

HPT：给五花八门的机器人造一颗"通用大脑主干"¶

📅 2024-09 · 🏛 MIT/Meta（何恺明组）· 🏷 跨本体预训练 📌 一句话省流：不同机器人传感器/关节都不一样，没法共用模型。HPT 给每个机器人配个小"插头"(stem)把它的本体感+视觉压成统一 token，再喂给一个所有机器人共享的主干网(trunk)；换新机器人只重训插头，未见任务 +20~30%。 ≈ 打比方：造一颗"通用大脑芯"，换机器人(壳)只换插头，主干不重学。 🔬 详读：详读-HPT 🎬 项目页 · 代码

🧰 对我们（可用性速判）¶

对我们的用处：跨本体共享表征的最干净骨架(stem 各本体 + trunk 共享)。触觉迁移想法：挂一个"触觉 stem"到共享主干，比每个触觉传感器单独训更省(和卡片-T3/卡片-AnyTouch"跨触觉统一"是更上位的跨本体版)。强经验：本体感很关键(去掉掉 16+pp)。
真实性：✅ 全文精读 + NeurIPS 2024 + 何恺明组 + 开源。
训练/微调资源：预训练大(52 数据集/1.55 亿样本/HPT-Huge 1.1B)，但下游冻结主干、只微调 stem/head，轻。
能借多少(开源)：✅ 代码 + 权重(liruiw/HPT)。
可用性结论：思路借鉴 / 表征可复用。
🔬 详读（全文）：详读-HPT

亮点（全文精读后定位）¶

stem/trunk/head 三段：stem(本体感 MLP+注意力→16 token、视觉冻结 ResNet18+交叉注意→16 token) + 共享 trunk(decoder transformer) + 任务 head。
缩放律：验证损失随轨迹数 log-线性降；模型 1M→1B 更好；52 本体比 27 本体泛化更好。
数据金字塔：42 OXE 真机 + 7 仿真 + 3 人类视频 + 1 部署机器人。
本体感关键(消融)：从零无本体感 26.7% vs 有 43.3%。

关键数字（每条带来源 [n]）¶

[1] 规模：52 数据集 / ~27 万轨迹 / ~1.55 亿样本 / HPT-Huge 1.1B。✅📄
[2] 仿真冻结主干比从零 +20~30%；真机 HPT-Base 70.0%(XL 76.7) vs 从零 43.3，超 R3M 50/VC-1 53.3。✅📄
[3] 本体感消融：无本体感 26.7% << 有 43.3%(差 16+pp)。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2409.20537，NeurIPS 2024（✅ 全文精读）。
代码/权重：✅ 开源(liruiw/HPT)。
证据等级：A → 权重：中(偏上)。

🧪 复现条件与成本（暂不亲做，只估）¶

预训练：52 数据集汇聚 + 多卡(重)；下游仅微调 stem/head(轻)。
侧证判价值：NeurIPS ✅ / 开源 ✅ / 缩放律+本体感消融硬 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

和卡片-GR00T-N1(数据金字塔)、卡片-RT-1(吸收异构)同主题，HPT 给"共享主干"最干净的实现。
本体感(proprioception)很关键(去掉掉 16+pp)——做我们策略时别只喂视觉/触觉、要带本体状态。挂"触觉 stem"是直接可试的迁移。

来源编号¶

[1][2][3] arXiv 2409.20537 全文（✅，见详读-HPT）。