ReKep:让 GPT-4o/视觉大模型自动"写出操作的约束方程",机器人当场解出动作¶
📅 2024-09 · 🏛 Stanford(李飞飞组)· 🏷 基础模型操作·免训练 📌 一句话省流:教机器人干活不用先训练——DINOv2+SAM 找出物体关键点,GPT-4o 据指令自动写出"关键点要满足的几何约束(Python 函数)",再用分层优化实时解出末端动作;7 个真任务总成功率 68.6%,远超同组 VoxPoser 的 10%。 ≈ 打比方:像"AI 看图自己列方程再求解",方程是 GPT-4o 写的。 🔬 详读:详读-ReKep 🎬 https://rekep-robot.github.io
🧰 对我们(可用性速判)¶
- 对我们的用处:"免训练 + 基础模型出约束 + 优化求解"这条与 VLA 并行的主路(我们库里薄)。触觉钩子:把"力/接触"写成关键点上的额外约束项接进优化(力约束=关键点代价)。而且它正好在"富接触/遮挡"上弱 → 触觉补短板有戏。
- 真实性:✅ 全文精读 + 大牌组 + 真机 7 任务。
- 训练/微调资源:免训练;推理期跑 GPT-4o + DINOv2/SAM + SciPy 优化(首解~1s,之后 10Hz)。
- 能借多少(开源):项目页有(rekep-robot.github.io);依赖 GPT-4o/DINOv2/SAM/AnyGrasp。
- 可用性结论:思路可直接借 / 工程可复刻。
- 🔬 详读(全文):详读-ReKep
亮点(全文精读后定位)¶
- 任务=关键点上的约束函数:分阶段,子目标约束(阶段末满足)+路径约束(全程满足);GPT-4o 输出算式(L2/点积)而非硬编码坐标,可表达 SO(3) 旋转。
- 分层优化 + 反应式重规划:违反路径约束就回退到约束成立的前阶段,抗外扰。
- 误差归因诚实:点跟踪器是最大误差源(~30–40%,遮挡)、VLM 25–30%。
关键数字(每条带来源 [n])¶
- [1] 7 任务总成功率 68.6% vs VoxPoser 10.0% vs 人工标注 44.3%。✅📄
- [2] 外扰下 46.7% vs VoxPoser 6.7%;8 类衣物泛化:策略可行 52.5%、给定策略执行 73.8%。✅📄
- [3] 优化:首解~1s(Dual Annealing+SLSQP)、后续 10Hz;视觉跟踪 20Hz 纠错。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2409.01652(✅ 全文精读)。
- 代码:项目页 rekep-robot.github.io。
- 证据等级:A → 权重:中(偏上)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 依赖:GPT-4o API + DINOv2/SAM + 优化器;免任务数据。
- 侧证判价值:真机 7 任务 ✅ / 大幅超 VoxPoser ✅ / 但点跟踪脆(遮挡) ⚠️。
💡 我的批注 / 判断(🤖,待人复核)¶
- 同组 卡片-MolmoAct(空间推理)、卡片-ECoT(语言推理)都属"加可解释中间表征"家族,ReKep 是完全免训练那种。
- 它的短板(刚体前向模型、点跟踪怕遮挡)恰是触觉的用武之地 → "触觉补 ReKep"是个具体可做的方向,对照 卡片-AdapTac-PredictiveForceAttention、卡片-VLA-Touch。
来源编号¶
- [1][2][3] arXiv 2409.01652 全文(✅,见 详读-ReKep)。