跳转至

机器人知识库

详读 π0.5

type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-π0.5 arxiv: "2504.16054" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · π0.5：靠"杂数据共训"让机器人在全新家里干活（Physical Intelligence，2025-04）¶

一、问题与核心主张¶

问题：机器人到没见过的新环境(尤其整屋清洁这种长程任务)就垮。
主张：异构数据共训——把移动操作机自身经验 + 其它机器人 + 网络数据 + 语义标注混在一起，练一个能在全新家庭干复杂家务的统一 VLA。

二、方法¶

分层(单模型两段推理)：先预测高层子任务("拿起盘子")，再据此出低层动作——类似思维链。
混合动作表示：预训练用 FAST 离散 token(高效)；后训练加流匹配动作专家(连续精细，10 步去噪)；两者联合训、分开注意力路径防串扰。
两段训练：预训练 280k 步(离散) → 后训练 80k 步(专精移动操作，加动作专家、保留文本预测)。

三、数据混合¶

MM 移动操作 ~400 小时(~100 个真实家庭) / ME 多环境非移动臂 / CE 跨本体(含 OXE) / HL 高层语义标注 / WD 网络图文 / VI 口头指令。
关键事实：第一阶段 97.6% 训练样本不来自移动操作机，而来自上述其它源。

四、关键结果¶

真实新家泛化：3 个厨房 + 3 个卧室(训练中完全没有)，做放碗入池/收纳/整理衣物等，多阶段连续完成(每集 2–5 分钟)，真家表现≈仿真基准。
环境数缩放：性能随训练环境数(3→104)单调上升；104 个环境≈在测试家上训的 oracle。
语言跟随：分布内 70–80%、分布外 50–60%。
显著超 π0 与 π0-FAST+Flow。

五、消融¶

去 ME(多环境非移动)/去 CE(跨本体) → 大跌(跨本体是地基)；去网络数据 → 对 OOD 物体泛化伤害大；去 VI(仅占 HL ~11%) → 高层推理明显退化；GPT-4 零样本做高层 < 学到的高层策略。

六、局限（作者自陈）¶

陌生环境仍出错(奇怪抽屉把手)、怕遮挡/部分可观、高层推理会"循环"(反复开关抽屉)、记忆/上下文有限、无跨房间导航。

七、开源 / 出处¶

Physical Intelligence 预印本(2504.16054)；博客 pi.website/blog/pi05；未明确开源。

八、对我们（精读后判断，🤖）¶

这是"开放世界泛化"的标杆：核心经验是"绝大多数训练数据来自非目标本体/网络"也能迁移(97.6%)，且环境多样性单调提升泛化——和详读-RT-1 的"多样性>数量"一脉相承，强烈指导我们的数据策略。
分层(高层子任务→低层动作)+混合离散/连续动作，是卡片-π0 的实用升级；触觉×VLA 可把触觉接在低层动作专家处。
清醒点：未明确开源、且仍会犯错——拿"配方与结论"，权重未必拿得到。