π0:用流匹配让 VLA 输出高频连续动作¶
📅 2024-10 · 🏛 Physical Intelligence · 🏷 VLA·流匹配动作 📌 一句话省流:在大模型(PaliGemma)上接一个"流匹配"动作生成器,能像挤牙膏一样一次吐出 50 步连续动作、最高 50Hz,所以能做叠衣、收拾餐桌这类灵巧+高频活;开箱就全面超 OpenVLA/Octo。 ≈ 打比方:别的 VLA 一格一格"打字"出动作,π0 是"一笔画一串",又快又顺。 🔬 详读:详读-π0 🎬 博客 · 代码 openpi
🧰 对我们(可用性速判)¶
- 对我们的用处:本库多张触觉卡的底座(卡片-Tactile-VLA 在 π0 上做、卡片-TacVLA 在 π0.5 上做)——懂 π0 才懂它们改了什么。流匹配动作专家是个可挂额外模态条件的好结构,触觉可作为其额外条件输入。
- 真实性:✅ 全文精读 + Physical Intelligence + 已开源 openpi。
- 训练/微调资源:3B VLM + 300M 动作专家;下游 1–100 小时数据可微调新任务。
- 能借多少(开源):✅ openpi(权重/代码),社区广泛复用。
- 可用性结论:直接可用 / 高频灵巧任务首选底座。
- 🔬 详读(全文):详读-π0
亮点(全文精读后定位)¶
- 流匹配动作专家:替代自回归离散,出高频(50Hz)、连续、多峰动作;一次预测 H=50 步(动作分块,无逐步延迟)。
- 跨本体大数据:7 种机器人、~903M 时间步(+9.1% OXE)、~1 万小时、68 任务。
- 预训练+微调 ~2×(难任务尤甚);VLM 初始化对语言/任务大增益。
- 消融:流匹配 > 自回归(自回归搞不定高频灵巧块)。
关键数字(每条带来源 [n])¶
- [1] 控制频率最高 50Hz;动作分块 H=50;VLM 3B + 动作专家 300M。✅📄
- [2] 数据 ~903M 时间步 + 9.1% OXE ≈ 1 万小时、7 本体、68 任务。✅📄
- [3] 开箱全面超 OpenVLA(7B)/Octo(93M);预训练+微调比从零 ~2×。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2410.24164(✅ 全文精读)。
- 代码:✅ openpi 开源。
- 证据等级:A → 权重:高。
🧪 复现条件与成本(暂不亲做,只估)¶
- 微调:openpi 权重 + 1–100 小时任务数据;中等算力。
- 侧证判价值:影响力大 ✅ / 开源 ✅ / 高频灵巧实证 ✅。
💡 我的批注 / 判断(🤖,待人复核)¶
- 关键工程结论:高频/接触密集任务必须用流匹配/连续动作头,离散自回归(卡片-OpenVLA)吃力——决定我们做接触任务时的动作头选型。
- 触觉接入点明确:作为流匹配动作专家的额外条件。对照 卡片-π0.5(分层+开放世界升级)、卡片-π0-FAST(离散 token 化加速)。
来源编号¶
- [1][2][3] arXiv 2410.24164 全文(✅,见 详读-π0)。