跳转至

机器人知识库

ReKep —— 用基础模型自动写"关键点约束(Python函数)"，免训练求解机器人操作

ReKep：让 GPT-4o/视觉大模型自动"写出操作的约束方程"，机器人当场解出动作¶

📅 2024-09 · 🏛 Stanford（李飞飞组）· 🏷 基础模型操作·免训练 📌 一句话省流：教机器人干活不用先训练——DINOv2+SAM 找出物体关键点，GPT-4o 据指令自动写出"关键点要满足的几何约束(Python 函数)"，再用分层优化实时解出末端动作；7 个真任务总成功率 68.6%，远超同组 VoxPoser 的 10%。 ≈ 打比方：像"AI 看图自己列方程再求解"，方程是 GPT-4o 写的。 🔬 详读：详读-ReKep 🎬 https://rekep-robot.github.io

🧰 对我们（可用性速判）¶

对我们的用处："免训练 + 基础模型出约束 + 优化求解"这条与 VLA 并行的主路(我们库里薄)。触觉钩子：把"力/接触"写成关键点上的额外约束项接进优化(力约束=关键点代价)。而且它正好在"富接触/遮挡"上弱 → 触觉补短板有戏。
真实性：✅ 全文精读 + 大牌组 + 真机 7 任务。
训练/微调资源：免训练；推理期跑 GPT-4o + DINOv2/SAM + SciPy 优化(首解~1s，之后 10Hz)。
能借多少(开源)：项目页有(rekep-robot.github.io)；依赖 GPT-4o/DINOv2/SAM/AnyGrasp。
可用性结论：思路可直接借 / 工程可复刻。
🔬 详读（全文）：详读-ReKep

亮点（全文精读后定位）¶

任务=关键点上的约束函数：分阶段，子目标约束(阶段末满足)+路径约束(全程满足)；GPT-4o 输出算式(L2/点积)而非硬编码坐标，可表达 SO(3) 旋转。
分层优化 + 反应式重规划：违反路径约束就回退到约束成立的前阶段，抗外扰。
误差归因诚实：点跟踪器是最大误差源(~30–40%，遮挡)、VLM 25–30%。

关键数字（每条带来源 [n]）¶

[1] 7 任务总成功率 68.6% vs VoxPoser 10.0% vs 人工标注 44.3%。✅📄
[2] 外扰下 46.7% vs VoxPoser 6.7%；8 类衣物泛化：策略可行 52.5%、给定策略执行 73.8%。✅📄
[3] 优化：首解~1s(Dual Annealing+SLSQP)、后续 10Hz；视觉跟踪 20Hz 纠错。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2409.01652（✅ 全文精读）。
代码：项目页 rekep-robot.github.io。
证据等级：A → 权重：中(偏上)。

🧪 复现条件与成本（暂不亲做，只估）¶

依赖：GPT-4o API + DINOv2/SAM + 优化器；免任务数据。
侧证判价值：真机 7 任务 ✅ / 大幅超 VoxPoser ✅ / 但点跟踪脆(遮挡) ⚠️。

💡 我的批注 / 判断（🤖，待人复核）¶

同组卡片-MolmoAct(空间推理)、卡片-ECoT(语言推理)都属"加可解释中间表征"家族，ReKep 是完全免训练那种。
它的短板(刚体前向模型、点跟踪怕遮挡)恰是触觉的用武之地 → "触觉补 ReKep"是个具体可做的方向，对照卡片-AdapTac-PredictiveForceAttention、卡片-VLA-Touch。

来源编号¶

[1][2][3] arXiv 2409.01652 全文（✅，见详读-ReKep）。