跳转至

type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-π0.5 arxiv: "2504.16054" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · π0.5:靠"杂数据共训"让机器人在全新家里干活(Physical Intelligence,2025-04)

一、问题与核心主张

  • 问题:机器人到没见过的新环境(尤其整屋清洁这种长程任务)就垮。
  • 主张异构数据共训——把移动操作机自身经验 + 其它机器人 + 网络数据 + 语义标注混在一起,练一个能在全新家庭干复杂家务的统一 VLA。

二、方法

  • 分层(单模型两段推理):先预测高层子任务("拿起盘子"),再据此出低层动作——类似思维链。
  • 混合动作表示:预训练用 FAST 离散 token(高效);后训练加流匹配动作专家(连续精细,10 步去噪);两者联合训、分开注意力路径防串扰。
  • 两段训练:预训练 280k 步(离散) → 后训练 80k 步(专精移动操作,加动作专家、保留文本预测)。

三、数据混合

  • MM 移动操作 ~400 小时(~100 个真实家庭) / ME 多环境非移动臂 / CE 跨本体(含 OXE) / HL 高层语义标注 / WD 网络图文 / VI 口头指令。
  • 关键事实:第一阶段 97.6% 训练样本不来自移动操作机,而来自上述其它源。

四、关键结果

  • 真实新家泛化:3 个厨房 + 3 个卧室(训练中完全没有),做放碗入池/收纳/整理衣物等,多阶段连续完成(每集 2–5 分钟),真家表现≈仿真基准。
  • 环境数缩放:性能随训练环境数(3→104)单调上升;104 个环境≈在测试家上训的 oracle。
  • 语言跟随:分布内 70–80%、分布外 50–60%。
  • 显著超 π0 与 π0-FAST+Flow。

五、消融

  • 去 ME(多环境非移动)/去 CE(跨本体) → 大跌(跨本体是地基);去网络数据 → 对 OOD 物体泛化伤害大;去 VI(仅占 HL ~11%) → 高层推理明显退化;GPT-4 零样本做高层 < 学到的高层策略。

六、局限(作者自陈)

  • 陌生环境仍出错(奇怪抽屉把手)、怕遮挡/部分可观、高层推理会"循环"(反复开关抽屉)、记忆/上下文有限、无跨房间导航。

七、开源 / 出处

  • Physical Intelligence 预印本(2504.16054);博客 pi.website/blog/pi05;未明确开源。

八、对我们(精读后判断,🤖)

  • 这是"开放世界泛化"的标杆:核心经验是"绝大多数训练数据来自非目标本体/网络"也能迁移(97.6%),且环境多样性单调提升泛化——和 详读-RT-1 的"多样性>数量"一脉相承,强烈指导我们的数据策略。
  • 分层(高层子任务→低层动作)+混合离散/连续动作,是 卡片-π0 的实用升级;触觉×VLA 可把触觉接在低层动作专家处。
  • 清醒点:未明确开源、且仍会犯错——拿"配方与结论",权重未必拿得到。