type: 详读(中文全文摘要) domain: 大脑·学习方法 对应卡片: 卡片-HPT arxiv: "2409.20537" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · HPT:共享主干跨本体预训练(MIT/Meta 何恺明组,NeurIPS 2024)¶
一、问题与核心主张¶
- 问题:机器人异构——硬件/传感器/本体感维度/动作空间各不同;按本体单独采数贵且易过拟合。
- 主张:跨多样数据(真机/仿真/人类视频)预训一个与任务、本体无关的共享策略表征,再小成本迁到新本体;关键是把异构传感输入对齐到统一潜空间。
二、架构(stem / trunk / head 三段)¶
- Stem(每本体专属):本体感 tokenizer(MLP+注意力→固定 16 token);视觉 tokenizer(冻结 ResNet18 + 交叉注意→ 16 token)。吃可变传感配置。
- Trunk(共享):decoder-only Transformer(16–80 层,128–1024 维),处理拼接 token;行为克隆(Huber)跨所有本体预训练;迁移时冻结。
- Head(任务专属):MLP 映到动作空间;新本体/任务时重初始化。
- 目标:
min Σ L(stem_k, trunk, head_k; D_k),预训练只更 trunk。
三、数据与缩放律¶
- 默认:27 数据集/16k 轨迹/5M 样本/HPT-Small(3.1M);规模设置:52 数据集/~27 万轨迹/~1.55 亿样本/HPT-Huge(1.1B)。
- 组成:42 个 Open-X 真机 + 7 仿真(Drake/MuJoCo/Isaac/PyBullet/Sapien/Flex) + 3 人类视频(EPIC-Kitchen/PoCo) + 1 部署机器人(FrodoBot)。
- 缩放律:验证损失随轨迹数 log-线性降;模型 1M→1B 配更多数据/算力更好;批量 256→2048 降方差;52 本体比 27 本体泛化更好。
四、关键结果¶
- 仿真(Meta-World/RoboMimic/Fleet-Tools/Simpler):冻结预训练主干比从零 +20–30%;HPT-XL 最强;Simpler 与 Octo/RT1-X/RT2-X 竞争。
- 真机(2 本体 4 任务):HPT-Base 微调 Sweep Leftover 70.0%±3.0(XL 76.7),从零仅 43.3;超纯视觉预训练 R3M 50%/VC-1 53.3%。
- 最大 HPT-Huge 1.1B。
五、消融¶
- 本体感关键:从零无本体感 26.7% << 从零有本体感 43.3%。
- Stem:交叉注意+可学 token 最适合变维本体感;视觉编码器试过 MAE/DINOv2/CLIP,选 ResNet18(图简单)。
- 冻结 trunk + 微调 stem/head 已得增益,全端到端微调仅边际提升。
六、局限(作者自陈)¶
- 可靠性仍 <90%;仅短程操作、测试时本体固定;数据预处理/curation 未深挖;纯监督(无自监督);中等算力。
七、开源 / 出处¶
- NeurIPS 2024;代码+权重开源(github.com/liruiw/HPT);MIT CSAIL + Meta FAIR。
八、对我们(精读后判断,🤖)¶
- 跨本体共享表征的骨架范例:和 卡片-GR00T-N1(数据金字塔)、卡片-RT-1(吸收异构)同主题,HPT 给的是最干净的"stem(各本体)+共享 trunk"解耦。
- 触觉迁移想法:挂一个"触觉 stem"到共享主干,比每个触觉传感器单独训更省——和 卡片-T3/卡片-AnyTouch"跨触觉传感器统一"是同思路的更上位(跨本体)版本。
- 强经验:本体感(proprioception)很关键(去掉掉 16+pp)——做我们的策略时别只喂视觉/触觉、要带本体状态。