跳转至

机器人知识库

HPT —— 用共享"主干网"吃几十种机器人数据，学跨本体通用表征（何恺明组）

HPT：给五花八门的机器人造一颗"通用大脑主干"¶

📅 2024-09 · 🏛 MIT/Meta（何恺明组）· 🏷 跨本体预训练 📌 一句话省流：用一个共享的主干网络(trunk)去吃几十种不同机器人的数据，学出"与本体、任务都无关"的通用表征；换到新机器人/新任务时只需小改再微调，未见任务性能 +20%。 ≈ 打比方：像造一颗"通用大脑芯"，换不同机器人（壳）只要换"插头"(stem)，主干不用重学。 🎬 演示：见项目页 ⚠️ 摘要级：仅读 arXiv 摘要，🧬关系为推断(🔶)，待补全文精读。

🧰 对我们（可用性速判）¶

对我们的用处：思路借鉴——"本体异构"是机器人数据最大的痛，HPT 用 stem(对齐各本体的本体感+视觉)+trunk(共享主干) 解耦的办法值得参考。对触觉×VLA 的钩子：触觉也是一种"本体相关、传感器各异"的模态，能否仿 stem 思路做"触觉 stem → 共享主干"。
真实性(前期)：何恺明/陈鑫磊组 + NeurIPS 2024，可信度高；🔶 具体数字未逐条核。
训练/微调资源：预训练规模大（52 数据集），但下游只微调，用户侧成本可控。
能借多少(开源)：✅ 代码 + 视频（项目页）。
可用性结论：思路借鉴 / 表征可复用。
📖 详读（按需）：暂无（摘要级）。

亮点（摘要级定位）¶

stem/trunk 架构：把不同机器人的本体感(proprioception)+视觉对齐成 token 序列 → 共享 Transformer 主干学通用表征。
规模：横跨 52 个数据集研究预训练。
未见任务 +20%：在仿真与真机的新任务上，微调后比基线高 20%+。
直击痛点：把"本体异构"从障碍变成可迁移的资产。

🧬 与其他工作的关系（🔶 推断，待全文核）¶

同类目标、不同路线：和卡片-Open-X-Embodiment / 卡片-Octo / 卡片-RoboCat 的"跨本体"目标一致，但 HPT 走的是"显式共享主干 + 每本体专属 stem"。
血缘：何恺明系（MAE/ResNet）把"可扩展预训练"思路带到机器人策略。

关键数字（每条带来源 [n]）¶

[1] 横跨 52 个数据集做预训练研究（✅ arXiv 摘要）。
[2] 微调后未见任务性能 +20%（✅ arXiv 摘要，仿真+真机）。

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2409.20537，NeurIPS 2024（已核摘要；未读全文）。
代码/数据：✅ 代码+视频（项目页）；52 数据集。
证据等级：C（摘要级）→ 权重：中(偏上)；核心主张 ✅，关系 🔶。

🧪 复现条件与成本（暂不亲做，只估）¶

预训练：需大算力 + 52 数据集汇聚（重）。
下游：仅微调 trunk，轻。
时间估计：复用其预训练权重做下游约 1–2 周；从头预训练很重。🔶

💡 我的批注 / 判断（🤖，待人复核）¶

升全文候选：若我们将来要"跨本体/跨传感器"统一表征，HPT 的 stem/trunk 是直接可借的骨架。
触觉钩子：把"触觉 stem"挂到共享主干，可能比每个触觉传感器单独训更省——对照卡片-T3、卡片-AnyTouch（它们已在做"跨触觉传感器统一表征"，HPT 是更上位的"跨本体"版本）。

来源编号¶

[1][2] arXiv 2409.20537 摘要（✅）。
🧬 关系：🤖 推断（🔶 待全文核）。