π0.5:靠"杂数据共训"让机器人进全新家也能干活¶
📅 2025-04 · 🏛 Physical Intelligence · 🏷 VLA·开放世界泛化 📌 一句话省流:卡片-π0 的升级——把自家移动操作机数据 + 别的机器人 + 网络数据 + 语义标注全混一起共训,让机器人在完全没见过的厨房/卧室也能做整屋收拾这种长程任务。诀窍:先想"该做哪个子任务"再出动作(分层),且训练数据 97.6% 不来自目标机器人本体。 ≈ 打比方:靠"读万卷书+见多识广",到了陌生人家也知道盘子该放哪。 🔬 详读:详读-π0.5 🎬 博客
🧰 对我们(可用性速判)¶
- 对我们的用处:开放世界泛化的标杆,也是 卡片-TacVLA 的底座。两条对我们数据策略的硬结论:环境多样性单调提升泛化(3→104 环境≈oracle)、绝大多数数据可来自非目标本体/网络(97.6%)——和 卡片-RT-1"多样性>数量"一脉相承。
- 真实性:✅ 全文精读 + Physical Intelligence。
- 训练/微调资源:两段训练(预训练 280k + 后训练 80k 步);分层 + 混合动作头。
- 能借多少(开源):未明确开源(博客);拿配方与结论为主。
- 可用性结论:思路/配方借鉴(权重未必可得)。
- 🔬 详读(全文):详读-π0.5
亮点(全文精读后定位)¶
- 分层单模型:先预测高层子任务("拿起盘子"),再据此出低层动作(类思维链)。
- 混合动作:预训练 FAST 离散 token(高效) + 后训练流匹配动作专家(连续精细,10 步去噪),分注意力路径防串扰。
- 异构共训 6 源(MM/ME/CE/HL/WD/VI),移动操作仅占 2.4%。
- 消融:去 ME/CE 大跌(跨本体是地基);网络数据助 OOD;VI 仅 11% 但对高层推理关键。
关键数字(每条带来源 [n])¶
- [1] 真实新家:3 厨房+3 卧室(训练全无),多阶段任务每集 2–5 分钟完成。✅📄
- [2] 环境数 3→104 性能单调升,104 个 ≈ 在测试家上训的 oracle。✅📄
- [3] 第一阶段 97.6% 样本非移动操作机;语言跟随分布内 70–80%/分布外 50–60%。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2504.16054(✅ 全文精读)。
- 代码/权重:未明确开源(博客 pi.website/blog/pi05)。
- 证据等级:A → 权重:高。
🧪 复现条件与成本(暂不亲做,只估)¶
- 关键在数据混合:~100 真实家庭 400 小时 + 大量异构源;重。
- 侧证判价值:开放世界实证 ✅ / 环境缩放规律 ✅ / 但未明确开源 ⚠️。
💡 我的批注 / 判断(🤖,待人复核)¶
- 最该记的两条数据策略铁律:环境多样性单调提升泛化、绝大多数数据可借非目标本体——直接指导我们触觉数据该怎么攒。
- 分层(高层子任务→低层动作)+混合动作,是 卡片-π0 的实用升级;触觉接低层动作专家。清醒点:未明确开源、陌生环境仍会犯错/循环。
来源编号¶
- [1][2][3] arXiv 2504.16054 全文(✅,见 详读-π0.5)。