跳转至

机器人知识库

FAST（π0-FAST）—— VLA 的高效动作 tokenizer

FAST / π0-FAST（高效动作分词）¶

📌 一句话：用基于 DCT（离散余弦变换）的压缩方案把连续动作序列变成紧凑离散 token，让自回归 VLA 也能高效学高频/灵巧动作；与 π0 结合可扩到 1 万小时机器人数据训练。 🔬 全文精读 + 关键图 + 数字：详读-π0-FAST

🧰 对我们（速判）¶

能借：✅ tokenizer 方法（动作压缩思路），是"自回归动作"路线对扩散/流匹配路线的有力替代。
资源：来自卡片-π0 团队（Physical Intelligence），与 π0 体系配套。
证据：A（PI 团队 + 项目页 + 明确数字）。

关键（摘要级）¶

📄 FAST = 基于 DCT 的动作压缩 → 离散 token；解决自回归 VLA 在高频动作上的低效问题。
📄 与 π0 结合可在 ~1 万小时机器人数据上训练。

来源¶

📄 FAST: Efficient Action Tokenization for Vision-Language-Action Models, arXiv 2501.09747 · 项目页
关联：卡片-π0 · 卡片-π0.5 · 卡片-OpenVLA-OFT（动作表示对照） · 概念-模型架构基础