跳转至

type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-π0 arxiv: "2410.24164" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · π0:用流匹配让 VLA 输出高频连续动作(Physical Intelligence,2024-10)

一、问题与核心主张

  • 问题:机器人策略不通用——数据少、泛化差、脆。
  • 主张:照 LLM 套路——在多本体海量机器人数据上预训练 + 下游微调;动作生成改用流匹配(flow matching),能出高频、连续、多峰动作。

二、方法 / 架构

  • VLM 底座:PaliGemma(3B,网络级预训练);外加 300M "动作专家"(机器人 token 专用权重)。
  • 流匹配动作:替代自回归离散化,做扩散式连续动作生成 → 支持高频(最高 50Hz) 与多峰分布。
  • 动作分块:一次前向预测 H=50 步动作,灵巧操作无逐步延迟。
  • 控制:灵巧任务 50Hz;UR5e/Franka 20Hz。

三、数据

  • 7 种机器人构型;903M 时间步(自有 106M 单臂 + 797M 双臂) + 9.1% 开源(OXE/Bridge v2/DROID),约 1 万小时68 个复杂任务(收拾餐桌、叠衣)。
  • 配方:低质多样数据预训练 → 高质任务数据后训练。

四、关键结果

  • 开箱即用:叠衬衫、简单收桌近满分;全面超 OpenVLA(7B)、Octo(93M)
  • 微调:1–100 小时数据即学会叠毛巾/微波炉/换纸巾/装抽屉等灵巧任务,超 ACT 与 Diffusion Policy。
  • 复杂多阶段:叠衣、收拾餐桌、装盒/装蛋 >50% 成功。

五、消融

  • 预训练+微调比从零 ~2×(难任务尤甚);VLM 初始化对语言/任务有大增益;流匹配 > 自回归(自回归搞不定高频灵巧块)。

六、局限(作者自陈)

  • 数据配比启发式不清楚、不知该优先什么数据;性能不稳;高度多样数据的正迁移程度待观察;未评导航/驾驶/腿足。

七、开源 / 出处

  • Physical Intelligence 预印本(2410.24164);后续以 openpi 开源(权重/代码,业界广泛复用)。

八、对我们(精读后判断,🤖)

  • 当前最强开源级 VLA 之一,确立了"VLM + 流匹配动作专家 + 动作分块"成为后续主流配方(卡片-π0-FAST卡片-π0.5 同系)。
  • 对触觉×VLA:流匹配动作专家是个可挂额外模态条件的好结构——触觉可作为动作专家的额外条件输入。对照 卡片-OpenVLA(离散自回归)看两条动作生成路线。
  • 关键工程结论:高频灵巧任务必须用流匹配/连续动作,离散自回归吃力——决定我们若做接触密集任务的动作头选型。