CogACT(认知-动作组件化 VLA)¶
📌 一句话:componentized VLA——VLM 负责"认知",再接一个专门的扩散 action transformer 负责"动作"序列建模;论文主张把动作模块从 VLM 里解耦出来效果更好。 🔬 全文精读 + 关键图 + 数字:详读-CogACT
🧰 对我们(速判)¶
- 能借:✅ 代码 + ✅ 权重。"VLM + 独立扩散动作头"是当前主流解耦范式之一,可作为接触觉/力控信号的动作模块参考。
- 资源:基于现成 VLM,动作模块单独训练。
- 证据:A(开源 + 有项目页/数据支撑)。
关键(摘要级)¶
- 📄 架构:VLM(认知)→ 专门 diffusion action transformer(动作序列)。
- 📄 论文强调解耦动作模块带来的样本效率 / 成功率收益(具体数字待核)。