跳转至

机器人知识库

π0 —— flow matching 动作专家的通用 VLA（多触觉卡的底座）

π0：用流匹配让 VLA 输出高频连续动作¶

📅 2024-10 · 🏛 Physical Intelligence · 🏷 VLA·流匹配动作 📌 一句话省流：在大模型(PaliGemma)上接一个"流匹配"动作生成器，能像挤牙膏一样一次吐出 50 步连续动作、最高 50Hz，所以能做叠衣、收拾餐桌这类灵巧+高频活；开箱就全面超 OpenVLA/Octo。 ≈ 打比方：别的 VLA 一格一格"打字"出动作，π0 是"一笔画一串"，又快又顺。 🔬 详读：详读-π0 🎬 博客 · 代码 openpi

🧰 对我们（可用性速判）¶

对我们的用处：本库多张触觉卡的底座（卡片-Tactile-VLA 在 π0 上做、卡片-TacVLA 在 π0.5 上做）——懂 π0 才懂它们改了什么。流匹配动作专家是个可挂额外模态条件的好结构，触觉可作为其额外条件输入。
真实性：✅ 全文精读 + Physical Intelligence + 已开源 openpi。
训练/微调资源：3B VLM + 300M 动作专家；下游 1–100 小时数据可微调新任务。
能借多少(开源)：✅ openpi(权重/代码)，社区广泛复用。
可用性结论：直接可用 / 高频灵巧任务首选底座。
🔬 详读（全文）：详读-π0

亮点（全文精读后定位）¶

流匹配动作专家：替代自回归离散，出高频(50Hz)、连续、多峰动作；一次预测 H=50 步(动作分块，无逐步延迟)。
跨本体大数据：7 种机器人、~903M 时间步(+9.1% OXE)、~1 万小时、68 任务。
预训练+微调 ~2×(难任务尤甚)；VLM 初始化对语言/任务大增益。
消融：流匹配 > 自回归(自回归搞不定高频灵巧块)。

关键数字（每条带来源 [n]）¶

[1] 控制频率最高 50Hz；动作分块 H=50；VLM 3B + 动作专家 300M。✅📄
[2] 数据 ~903M 时间步 + 9.1% OXE ≈ 1 万小时、7 本体、68 任务。✅📄
[3] 开箱全面超 OpenVLA(7B)/Octo(93M)；预训练+微调比从零 ~2×。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2410.24164（✅ 全文精读）。
代码：✅ openpi 开源。
证据等级：A → 权重：高。

🧪 复现条件与成本（暂不亲做，只估）¶

微调：openpi 权重 + 1–100 小时任务数据；中等算力。
侧证判价值：影响力大 ✅ / 开源 ✅ / 高频灵巧实证 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

关键工程结论：高频/接触密集任务必须用流匹配/连续动作头，离散自回归(卡片-OpenVLA)吃力——决定我们做接触任务时的动作头选型。
触觉接入点明确：作为流匹配动作专家的额外条件。对照卡片-π0.5(分层+开放世界升级)、卡片-π0-FAST(离散 token 化加速)。

来源编号¶

[1][2][3] arXiv 2410.24164 全文（✅，见详读-π0）。