跳转至

π0.5:靠"杂数据共训"让机器人进全新家也能干活

📅 2025-04 · 🏛 Physical Intelligence · 🏷 VLA·开放世界泛化 📌 一句话省流卡片-π0 的升级——把自家移动操作机数据 + 别的机器人 + 网络数据 + 语义标注全混一起共训,让机器人在完全没见过的厨房/卧室也能做整屋收拾这种长程任务。诀窍:先想"该做哪个子任务"再出动作(分层),且训练数据 97.6% 不来自目标机器人本体。 ≈ 打比方:靠"读万卷书+见多识广",到了陌生人家也知道盘子该放哪。 🔬 详读:详读-π0.5 🎬 博客

🧰 对我们(可用性速判)

  • 对我们的用处开放世界泛化的标杆,也是 卡片-TacVLA 的底座。两条对我们数据策略的硬结论:环境多样性单调提升泛化(3→104 环境≈oracle)、绝大多数数据可来自非目标本体/网络(97.6%)——和 卡片-RT-1"多样性>数量"一脉相承。
  • 真实性:✅ 全文精读 + Physical Intelligence。
  • 训练/微调资源:两段训练(预训练 280k + 后训练 80k 步);分层 + 混合动作头。
  • 能借多少(开源):未明确开源(博客);拿配方与结论为主。
  • 可用性结论思路/配方借鉴(权重未必可得)。
  • 🔬 详读(全文):详读-π0.5

亮点(全文精读后定位)

  • 分层单模型:先预测高层子任务("拿起盘子"),再据此出低层动作(类思维链)。
  • 混合动作:预训练 FAST 离散 token(高效) + 后训练流匹配动作专家(连续精细,10 步去噪),分注意力路径防串扰。
  • 异构共训 6 源(MM/ME/CE/HL/WD/VI),移动操作仅占 2.4%。
  • 消融:去 ME/CE 大跌(跨本体是地基);网络数据助 OOD;VI 仅 11% 但对高层推理关键。

关键数字(每条带来源 [n])

  • [1] 真实新家:3 厨房+3 卧室(训练全无),多阶段任务每集 2–5 分钟完成。✅📄
  • [2] 环境数 3→104 性能单调升,104 个 ≈ 在测试家上训的 oracle。✅📄
  • [3] 第一阶段 97.6% 样本非移动操作机;语言跟随分布内 70–80%/分布外 50–60%。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2504.16054(✅ 全文精读)。
  • 代码/权重:未明确开源(博客 pi.website/blog/pi05)。
  • 证据等级:A → 权重:高

🧪 复现条件与成本(暂不亲做,只估)

  • 关键在数据混合:~100 真实家庭 400 小时 + 大量异构源;重。
  • 侧证判价值:开放世界实证 ✅ / 环境缩放规律 ✅ / 但未明确开源 ⚠️。

💡 我的批注 / 判断(🤖,待人复核)

  • 最该记的两条数据策略铁律:环境多样性单调提升泛化、绝大多数数据可借非目标本体——直接指导我们触觉数据该怎么攒。
  • 分层(高层子任务→低层动作)+混合动作,是 卡片-π0 的实用升级;触觉接低层动作专家。清醒点:未明确开源、陌生环境仍会犯错/循环。

来源编号

  • [1][2][3] arXiv 2504.16054 全文(✅,见 详读-π0.5)。