ECoT:让机器人"先把话想明白,再下手"¶
📅 2024-07 · 🏛 UC Berkeley · 🏷 VLA·具身推理 📌 一句话省流:给 VLA 加一套"动手前先推理"的流程——依次想 任务→计划→子任务→低层动作→末端和物体的像素位置,再出动作;给 OpenVLA 加上后泛化任务绝对成功率 +28%(66% vs 44%),且不用多采机器人数据。 ≈ 打比方:让机器人"先打草稿、还把关键物体在画面上圈出来",再落笔。 🔬 详读:详读-ECoT 🎬 https://embodied-cot.github.io
🧰 对我们(可用性速判)¶
- 对我们的用处:推理×VLA 最该深用的一篇(开源、基于 卡片-OpenVLA 可上手)。核心可迁移结论:推理必须带视觉 grounding(像素/框),纯语义推理只到 48%。触觉钩子:在推理链里加"力/接触"作为显式 grounding 的中间量。
- 真实性:✅ 全文精读 + 开源 + 多设置实证。
- 训练/微调资源:OpenVLA-7B 上微调 + 合成推理数据(Bridge v2 2.5M,7 天生成)。
- 能借多少(开源):✅ 代码 + 数据管线开源。
- 可用性结论:可复刻 / 可微调。
- 🔬 详读(全文):详读-ECoT
亮点(全文精读后定位)¶
- 推理链 6 段:TASK→PLAN→SUBTASK→MOVE→GRIPPER & OBJECTS(像素坐标/框);后两段是"看清楚"的关键。
- 合成数据管线:Prismatic VLM + Grounding DINO + OWLv2/SAM + Gemini 自动标,不用人工。
- 视觉 grounding 是胜负手:朴素 CoT(仅语义) 48% vs ECoT 66%。
- 交互纠错:一句人类反馈,最难任务 32%→80%(+48%)。
关键数字(每条带来源 [n])¶
- [1] 泛化任务绝对 +28%(66% vs OpenVLA 44%),超 RT-2-X(55B);视角内 66%/OOD 64%。✅📄
- [2] 朴素 CoT 48% vs ECoT 66%(视觉 grounding 必要);交互纠错 32%→80%。✅📄
- [3] 异步推理 +40% 速度/65% 成功;迁移多机器人 ~4× 更少步数(20k vs 80k)。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2407.08693(✅ 全文精读)。
- 代码/数据:✅ 开源(embodied-cot.github.io)。
- 证据等级:A → 权重:中(偏上)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 基础:OpenVLA(7B) + 合成推理数据管线;VLA 微调级算力。
- 侧证判价值:开源 ✅ / 合成标注省人工 ✅ / 视觉 grounding 消融硬 ✅。
💡 我的批注 / 判断(🤖,待人复核)¶
- 触觉钩子最实:推理链里加"力/接触"作显式 grounding 中间量,和 卡片-Octopi"先预测物理属性再推理"(涨 20–40%)、卡片-MolmoAct"空间推理"同源——这是"触觉进大脑决策"的可解释路线。
- 部署留"人一句话纠偏"口子(+48%),性价比极高。
来源编号¶
- [1][2][3] arXiv 2407.08693 全文(✅,见 详读-ECoT)。