跳转至

机器人知识库

CogACT —— "认知 + 动作"解耦的 VLA（专门扩散动作模块）

CogACT（认知-动作组件化 VLA）¶

📌 一句话：componentized VLA——VLM 负责"认知"，再接一个专门的扩散 action transformer 负责"动作"序列建模；论文主张把动作模块从 VLM 里解耦出来效果更好。 🔬 全文精读 + 关键图 + 数字：详读-CogACT

🧰 对我们（速判）¶

能借：✅ 代码 + ✅ 权重。"VLM + 独立扩散动作头"是当前主流解耦范式之一，可作为接触觉/力控信号的动作模块参考。
资源：基于现成 VLM，动作模块单独训练。
证据：A（开源 + 有项目页/数据支撑）。

关键（摘要级）¶

📄 架构：VLM（认知）→ 专门 diffusion action transformer（动作序列）。
📄 论文强调解耦动作模块带来的样本效率 / 成功率收益（具体数字待核）。

来源¶

📄 CogACT: A Foundational Vision-Language-Action Model ..., arXiv 2411.19650 · 项目页 · 代码
关联：卡片-π0 · 卡片-RDT-1B（扩散动作对照） · 概念-模型架构基础