type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-π0.5 arxiv: "2504.16054" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · π0.5:靠"杂数据共训"让机器人在全新家里干活(Physical Intelligence,2025-04)¶
一、问题与核心主张¶
- 问题:机器人到没见过的新环境(尤其整屋清洁这种长程任务)就垮。
- 主张:异构数据共训——把移动操作机自身经验 + 其它机器人 + 网络数据 + 语义标注混在一起,练一个能在全新家庭干复杂家务的统一 VLA。
二、方法¶
- 分层(单模型两段推理):先预测高层子任务("拿起盘子"),再据此出低层动作——类似思维链。
- 混合动作表示:预训练用 FAST 离散 token(高效);后训练加流匹配动作专家(连续精细,10 步去噪);两者联合训、分开注意力路径防串扰。
- 两段训练:预训练 280k 步(离散) → 后训练 80k 步(专精移动操作,加动作专家、保留文本预测)。
三、数据混合¶
- MM 移动操作 ~400 小时(~100 个真实家庭) / ME 多环境非移动臂 / CE 跨本体(含 OXE) / HL 高层语义标注 / WD 网络图文 / VI 口头指令。
- 关键事实:第一阶段 97.6% 训练样本不来自移动操作机,而来自上述其它源。
四、关键结果¶
- 真实新家泛化:3 个厨房 + 3 个卧室(训练中完全没有),做放碗入池/收纳/整理衣物等,多阶段连续完成(每集 2–5 分钟),真家表现≈仿真基准。
- 环境数缩放:性能随训练环境数(3→104)单调上升;104 个环境≈在测试家上训的 oracle。
- 语言跟随:分布内 70–80%、分布外 50–60%。
- 显著超 π0 与 π0-FAST+Flow。
五、消融¶
- 去 ME(多环境非移动)/去 CE(跨本体) → 大跌(跨本体是地基);去网络数据 → 对 OOD 物体泛化伤害大;去 VI(仅占 HL ~11%) → 高层推理明显退化;GPT-4 零样本做高层 < 学到的高层策略。
六、局限(作者自陈)¶
- 陌生环境仍出错(奇怪抽屉把手)、怕遮挡/部分可观、高层推理会"循环"(反复开关抽屉)、记忆/上下文有限、无跨房间导航。
七、开源 / 出处¶
- Physical Intelligence 预印本(2504.16054);博客 pi.website/blog/pi05;未明确开源。