type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-ReKep arxiv: "2409.01652" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · ReKep:用基础模型自动写"关键点约束",免训练求解操作(Stanford 李飞飞组,2024-09)¶
一、问题与核心主张¶
- 问题:操作表征要么靠刚体 CAD 位姿、要么要大量任务数据训练。能不能要一种通用、免人工标注、可实时求解的约束?
- 主张:把任务表示成作用于语义 3D 关键点的一串约束函数(NumPy 算式,可非线性);任务分阶段,每阶段有"子目标约束"(阶段末满足)和"路径约束"(全程满足)。
二、方法¶
- 关键点提议:DINOv2 patch 特征上采样 + SAM 分割所有物体;每个 mask 内 k-means(k=5,余弦)选候选点,8cm 内合并;标定 RGB-D 投到 3D。
- 约束生成:关键点带数字标号叠到 RGB → GPT-4o 据图+指令生成 Python 约束函数(输出关键点上的 L2 距离/点积等算式,而非硬编码坐标 → 可表达 SO(3) 旋转)。
- 分层优化(SE(3)):子目标问题(Eq.2) + 路径问题(Eq.3);首解 Dual Annealing + SLSQP(~1s),之后只 SLSQP ~10Hz;SciPy 实现。
- 关键点前向模型:抓取点与末端假设刚体,同 SE(3) 变换,其余静止;20Hz 视觉跟踪纠错(局部假设 0.1s 内有效)。
- 反应式重规划:每控制环查路径约束,违反则回退到约束仍成立的前一阶段 → 抗外扰恢复。
三、结果(7 任务)¶
| 任务 | ReKep(自动) | VoxPoser | 人工标注 |
|---|---|---|---|
| 倒茶/回收罐/收书/封箱/叠衣/装鞋/协作叠 | — | — | — |
| 总体 | 68.6% | 10.0% | 44.3% |
| - 外扰下:ReKep 46.7% vs VoxPoser 6.7%。 | |||
| - 泛化(8 类衣物):策略可行率 52.5%、给定策略执行成功 73.8%。 |
四、误差归因(人工排查)¶
- 点跟踪器最大误差源(~30–40%,遮挡);关键点提议/VLM ~25–30%(漏点/指错);优化贡献小;分割/3D 重建/底层控制影响极小。
五、局限(作者自陈)¶
- 前向模型靠刚体假设、只局部有效(0.1s)——富接触/动态任务需学习/物理模型;
- 点跟踪脆(遮挡)是核心瓶颈;
- 任务骨架固定(预设阶段序列),动态重规划要高频调 VLM/关键点,算力吃不消。
六、开源 / 出处¶
- arXiv 2409.01652;rekep-robot.github.io;依赖 DINOv2/GPT-4o/SAM/AnyGrasp/SciPy。
七、对我们(精读后判断,🤖)¶
- "免训练 + 基础模型出约束 + 优化求解"这条与 VLA 并行的主路,我们库里这条线薄。和同组 卡片-MolmoAct(空间推理)、卡片-ECoT(语言推理)同为"加可解释中间表征"家族,但 ReKep 是完全免训练的那种。
- 触觉钩子:把"力/接触"写成关键点上的额外约束项接进它的优化(力约束=关键点代价),可能是"触觉融入决策"的非 VLA 实现,对照 卡片-AdapTac-PredictiveForceAttention、卡片-VLA-Touch。
- 清醒点:刚体前向模型 + 点跟踪脆——它正好在"富接触/遮挡"上弱,而那恰是触觉的用武之地 → 反而说明"触觉补 ReKep 短板"有戏。