type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-ReKep arxiv: "2409.01652" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · ReKep：用基础模型自动写"关键点约束"，免训练求解操作（Stanford 李飞飞组，2024-09）¶

一、问题与核心主张¶

问题：操作表征要么靠刚体 CAD 位姿、要么要大量任务数据训练。能不能要一种通用、免人工标注、可实时求解的约束？
主张：把任务表示成作用于语义 3D 关键点的一串约束函数(NumPy 算式，可非线性)；任务分阶段，每阶段有"子目标约束"(阶段末满足)和"路径约束"(全程满足)。

关键点提议：DINOv2 patch 特征上采样 + SAM 分割所有物体；每个 mask 内 k-means(k=5,余弦)选候选点，8cm 内合并；标定 RGB-D 投到 3D。
约束生成：关键点带数字标号叠到 RGB → GPT-4o 据图+指令生成 Python 约束函数(输出关键点上的 L2 距离/点积等算式，而非硬编码坐标 → 可表达 SO(3) 旋转)。
分层优化(SE(3))：子目标问题(Eq.2) + 路径问题(Eq.3)；首解 Dual Annealing + SLSQP(~1s)，之后只 SLSQP ~10Hz；SciPy 实现。
关键点前向模型：抓取点与末端假设刚体，同 SE(3) 变换，其余静止；20Hz 视觉跟踪纠错(局部假设 0.1s 内有效)。
反应式重规划：每控制环查路径约束，违反则回退到约束仍成立的前一阶段 → 抗外扰恢复。

任务	ReKep(自动)	VoxPoser	人工标注
倒茶/回收罐/收书/封箱/叠衣/装鞋/协作叠	—	—	—
总体	68.6%	10.0%	44.3%
- 外扰下：ReKep 46.7% vs VoxPoser 6.7%。
- 泛化(8 类衣物)：策略可行率 52.5%、给定策略执行成功 73.8%。

"免训练 + 基础模型出约束 + 优化求解"这条与 VLA 并行的主路，我们库里这条线薄。和同组卡片-MolmoAct(空间推理)、卡片-ECoT(语言推理)同为"加可解释中间表征"家族，但 ReKep 是完全免训练的那种。
触觉钩子：把"力/接触"写成关键点上的额外约束项接进它的优化(力约束=关键点代价)，可能是"触觉融入决策"的非 VLA 实现，对照卡片-AdapTac-PredictiveForceAttention、卡片-VLA-Touch。
清醒点：刚体前向模型 + 点跟踪脆——它正好在"富接触/遮挡"上弱，而那恰是触觉的用武之地 → 反而说明"触觉补 ReKep 短板"有戏。