跳转至

机器人知识库

π0.5 —— π0 的开放世界泛化升级（杂数据共训进新家）

π0.5：靠"杂数据共训"让机器人进全新家也能干活¶

📅 2025-04 · 🏛 Physical Intelligence · 🏷 VLA·开放世界泛化 📌 一句话省流：卡片-π0 的升级——把自家移动操作机数据 + 别的机器人 + 网络数据 + 语义标注全混一起共训，让机器人在完全没见过的厨房/卧室也能做整屋收拾这种长程任务。诀窍：先想"该做哪个子任务"再出动作（分层），且训练数据 97.6% 不来自目标机器人本体。 ≈ 打比方：靠"读万卷书+见多识广"，到了陌生人家也知道盘子该放哪。 🔬 详读：详读-π0.5 🎬 博客

🧰 对我们（可用性速判）¶

对我们的用处：开放世界泛化的标杆，也是卡片-TacVLA 的底座。两条对我们数据策略的硬结论：环境多样性单调提升泛化(3→104 环境≈oracle)、绝大多数数据可来自非目标本体/网络(97.6%)——和卡片-RT-1"多样性>数量"一脉相承。
真实性：✅ 全文精读 + Physical Intelligence。
训练/微调资源：两段训练(预训练 280k + 后训练 80k 步)；分层 + 混合动作头。
能借多少(开源)：未明确开源(博客)；拿配方与结论为主。
可用性结论：思路/配方借鉴（权重未必可得）。
🔬 详读（全文）：详读-π0.5

亮点（全文精读后定位）¶

分层单模型：先预测高层子任务("拿起盘子")，再据此出低层动作(类思维链)。
混合动作：预训练 FAST 离散 token(高效) + 后训练流匹配动作专家(连续精细，10 步去噪)，分注意力路径防串扰。
异构共训 6 源(MM/ME/CE/HL/WD/VI)，移动操作仅占 2.4%。
消融：去 ME/CE 大跌(跨本体是地基)；网络数据助 OOD；VI 仅 11% 但对高层推理关键。

关键数字（每条带来源 [n]）¶

[1] 真实新家：3 厨房+3 卧室(训练全无)，多阶段任务每集 2–5 分钟完成。✅📄
[2] 环境数 3→104 性能单调升，104 个 ≈ 在测试家上训的 oracle。✅📄
[3] 第一阶段 97.6% 样本非移动操作机；语言跟随分布内 70–80%/分布外 50–60%。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2504.16054（✅ 全文精读）。
代码/权重：未明确开源（博客 pi.website/blog/pi05）。
证据等级：A → 权重：高。

🧪 复现条件与成本（暂不亲做，只估）¶

关键在数据混合：~100 真实家庭 400 小时 + 大量异构源；重。
侧证判价值：开放世界实证 ✅ / 环境缩放规律 ✅ / 但未明确开源 ⚠️。

💡 我的批注 / 判断（🤖，待人复核）¶

最该记的两条数据策略铁律：环境多样性单调提升泛化、绝大多数数据可借非目标本体——直接指导我们触觉数据该怎么攒。
分层(高层子任务→低层动作)+混合动作，是卡片-π0 的实用升级；触觉接低层动作专家。清醒点：未明确开源、陌生环境仍会犯错/循环。

来源编号¶

[1][2][3] arXiv 2504.16054 全文（✅，见详读-π0.5）。