跳转至

CogACT(认知-动作组件化 VLA)

📌 一句话:componentized VLA——VLM 负责"认知",再接一个专门的扩散 action transformer 负责"动作"序列建模;论文主张把动作模块从 VLM 里解耦出来效果更好。 🔬 全文精读 + 关键图 + 数字详读-CogACT

🧰 对我们(速判)

  • 能借:✅ 代码 + ✅ 权重。"VLM + 独立扩散动作头"是当前主流解耦范式之一,可作为接触觉/力控信号的动作模块参考。
  • 资源:基于现成 VLM,动作模块单独训练。
  • 证据:A(开源 + 有项目页/数据支撑)。

关键(摘要级)

  • 📄 架构:VLM(认知)→ 专门 diffusion action transformer(动作序列)。
  • 📄 论文强调解耦动作模块带来的样本效率 / 成功率收益(具体数字待核)。

来源