跳转至

机器人知识库

详读 π0

type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-π0 arxiv: "2410.24164" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · π0：用流匹配让 VLA 输出高频连续动作（Physical Intelligence，2024-10）¶

一、问题与核心主张¶

问题：机器人策略不通用——数据少、泛化差、脆。
主张：照 LLM 套路——在多本体海量机器人数据上预训练 + 下游微调；动作生成改用流匹配(flow matching)，能出高频、连续、多峰动作。

二、方法 / 架构¶

VLM 底座：PaliGemma(3B，网络级预训练)；外加 300M "动作专家"(机器人 token 专用权重)。
流匹配动作：替代自回归离散化，做扩散式连续动作生成 → 支持高频(最高 50Hz) 与多峰分布。
动作分块：一次前向预测 H=50 步动作，灵巧操作无逐步延迟。
控制：灵巧任务 50Hz；UR5e/Franka 20Hz。

三、数据¶

7 种机器人构型；903M 时间步(自有 106M 单臂 + 797M 双臂) + 9.1% 开源(OXE/Bridge v2/DROID)，约 1 万小时；68 个复杂任务(收拾餐桌、叠衣)。
配方：低质多样数据预训练 → 高质任务数据后训练。

四、关键结果¶

开箱即用：叠衬衫、简单收桌近满分；全面超 OpenVLA(7B)、Octo(93M)。
微调：1–100 小时数据即学会叠毛巾/微波炉/换纸巾/装抽屉等灵巧任务，超 ACT 与 Diffusion Policy。
复杂多阶段：叠衣、收拾餐桌、装盒/装蛋 >50% 成功。

五、消融¶

预训练+微调比从零 ~2×(难任务尤甚)；VLM 初始化对语言/任务有大增益；流匹配 > 自回归(自回归搞不定高频灵巧块)。

六、局限（作者自陈）¶

数据配比启发式不清楚、不知该优先什么数据；性能不稳；高度多样数据的正迁移程度待观察；未评导航/驾驶/腿足。

七、开源 / 出处¶

Physical Intelligence 预印本(2410.24164)；后续以 openpi 开源(权重/代码，业界广泛复用)。

八、对我们（精读后判断，🤖）¶

当前最强开源级 VLA 之一，确立了"VLM + 流匹配动作专家 + 动作分块"成为后续主流配方(卡片-π0-FAST、卡片-π0.5 同系)。
对触觉×VLA：流匹配动作专家是个可挂额外模态条件的好结构——触觉可作为动作专家的额外条件输入。对照卡片-OpenVLA(离散自回归)看两条动作生成路线。
关键工程结论：高频灵巧任务必须用流匹配/连续动作，离散自回归吃力——决定我们若做接触密集任务的动作头选型。