跳转至

机器人知识库

详读 HPT

type: 详读（中文全文摘要） domain: 大脑·学习方法对应卡片: 卡片-HPT arxiv: "2409.20537" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · HPT：共享主干跨本体预训练（MIT/Meta 何恺明组，NeurIPS 2024）¶

一、问题与核心主张¶

问题：机器人异构——硬件/传感器/本体感维度/动作空间各不同；按本体单独采数贵且易过拟合。
主张：跨多样数据(真机/仿真/人类视频)预训一个与任务、本体无关的共享策略表征，再小成本迁到新本体；关键是把异构传感输入对齐到统一潜空间。

二、架构（stem / trunk / head 三段）¶

Stem(每本体专属)：本体感 tokenizer(MLP+注意力→固定 16 token)；视觉 tokenizer(冻结 ResNet18 + 交叉注意→ 16 token)。吃可变传感配置。
Trunk(共享)：decoder-only Transformer(16–80 层，128–1024 维)，处理拼接 token；行为克隆(Huber)跨所有本体预训练；迁移时冻结。
Head(任务专属)：MLP 映到动作空间；新本体/任务时重初始化。
目标：min Σ L(stem_k, trunk, head_k; D_k)，预训练只更 trunk。

三、数据与缩放律¶

默认：27 数据集/16k 轨迹/5M 样本/HPT-Small(3.1M)；规模设置：52 数据集/~27 万轨迹/~1.55 亿样本/HPT-Huge(1.1B)。
组成：42 个 Open-X 真机 + 7 仿真(Drake/MuJoCo/Isaac/PyBullet/Sapien/Flex) + 3 人类视频(EPIC-Kitchen/PoCo) + 1 部署机器人(FrodoBot)。
缩放律：验证损失随轨迹数 log-线性降；模型 1M→1B 配更多数据/算力更好；批量 256→2048 降方差；52 本体比 27 本体泛化更好。

四、关键结果¶

仿真(Meta-World/RoboMimic/Fleet-Tools/Simpler)：冻结预训练主干比从零 +20–30%；HPT-XL 最强；Simpler 与 Octo/RT1-X/RT2-X 竞争。
真机(2 本体 4 任务)：HPT-Base 微调 Sweep Leftover 70.0%±3.0(XL 76.7)，从零仅 43.3；超纯视觉预训练 R3M 50%/VC-1 53.3%。
最大 HPT-Huge 1.1B。

五、消融¶

本体感关键：从零无本体感 26.7% << 从零有本体感 43.3%。
Stem：交叉注意+可学 token 最适合变维本体感；视觉编码器试过 MAE/DINOv2/CLIP，选 ResNet18(图简单)。
冻结 trunk + 微调 stem/head 已得增益，全端到端微调仅边际提升。

六、局限（作者自陈）¶

可靠性仍 <90%；仅短程操作、测试时本体固定；数据预处理/curation 未深挖；纯监督(无自监督)；中等算力。

七、开源 / 出处¶

NeurIPS 2024；代码+权重开源(github.com/liruiw/HPT)；MIT CSAIL + Meta FAIR。

八、对我们（精读后判断，🤖）¶

跨本体共享表征的骨架范例：和卡片-GR00T-N1(数据金字塔)、卡片-RT-1(吸收异构)同主题，HPT 给的是最干净的"stem(各本体)+共享 trunk"解耦。
触觉迁移想法：挂一个"触觉 stem"到共享主干，比每个触觉传感器单独训更省——和卡片-T3/卡片-AnyTouch"跨触觉传感器统一"是同思路的更上位(跨本体)版本。
强经验：本体感(proprioception)很关键(去掉掉 16+pp)——做我们的策略时别只喂视觉/触觉、要带本体状态。