type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-π0 arxiv: "2410.24164" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · π0:用流匹配让 VLA 输出高频连续动作(Physical Intelligence,2024-10)¶
一、问题与核心主张¶
- 问题:机器人策略不通用——数据少、泛化差、脆。
- 主张:照 LLM 套路——在多本体海量机器人数据上预训练 + 下游微调;动作生成改用流匹配(flow matching),能出高频、连续、多峰动作。
二、方法 / 架构¶
- VLM 底座:PaliGemma(3B,网络级预训练);外加 300M "动作专家"(机器人 token 专用权重)。
- 流匹配动作:替代自回归离散化,做扩散式连续动作生成 → 支持高频(最高 50Hz) 与多峰分布。
- 动作分块:一次前向预测 H=50 步动作,灵巧操作无逐步延迟。
- 控制:灵巧任务 50Hz;UR5e/Franka 20Hz。
三、数据¶
- 7 种机器人构型;903M 时间步(自有 106M 单臂 + 797M 双臂) + 9.1% 开源(OXE/Bridge v2/DROID),约 1 万小时;68 个复杂任务(收拾餐桌、叠衣)。
- 配方:低质多样数据预训练 → 高质任务数据后训练。
四、关键结果¶
- 开箱即用:叠衬衫、简单收桌近满分;全面超 OpenVLA(7B)、Octo(93M)。
- 微调:1–100 小时数据即学会叠毛巾/微波炉/换纸巾/装抽屉等灵巧任务,超 ACT 与 Diffusion Policy。
- 复杂多阶段:叠衣、收拾餐桌、装盒/装蛋 >50% 成功。
五、消融¶
- 预训练+微调比从零 ~2×(难任务尤甚);VLM 初始化对语言/任务有大增益;流匹配 > 自回归(自回归搞不定高频灵巧块)。
六、局限(作者自陈)¶
- 数据配比启发式不清楚、不知该优先什么数据;性能不稳;高度多样数据的正迁移程度待观察;未评导航/驾驶/腿足。
七、开源 / 出处¶
- Physical Intelligence 预印本(2410.24164);后续以 openpi 开源(权重/代码,业界广泛复用)。
八、对我们(精读后判断,🤖)¶
- 当前最强开源级 VLA 之一,确立了"VLM + 流匹配动作专家 + 动作分块"成为后续主流配方(卡片-π0-FAST、卡片-π0.5 同系)。
- 对触觉×VLA:流匹配动作专家是个可挂额外模态条件的好结构——触觉可作为动作专家的额外条件输入。对照 卡片-OpenVLA(离散自回归)看两条动作生成路线。
- 关键工程结论:高频灵巧任务必须用流匹配/连续动作,离散自回归吃力——决定我们若做接触密集任务的动作头选型。