跳转至

GraspGen-X:让抓取模型"零样本换夹爪"——训一次,任意夹爪都能抓

📅 2026-05 · 🏛 NVIDIA(SRL) + Princeton(Jia Deng 组) · 🏷 跨本体 6-DOF 抓取 📌 一句话省流卡片-GraspGen跨本体升级版。抓取是"换机器人/换夹爪就得重训"的最不可迁移环节;GraspGen-X 让扩散生成器额外条件于"夹爪的表示",用一个 swept-volume(扫掠体积)启发式编码任意夹爪几何,并用 50 种程序化生成的夹爪 + 20 亿抓取预训练 → 零样本泛化到没见过的真实夹爪(含 3 指高自由度手),也是新夹爪微调的更好初始化。 ≈ 打比方:不再"一把夹爪训一个模型",而是把"夹爪长什么样"也喂进去当条件——于是换把没见过的夹爪,模型看一眼它的形状就能抓。 🎬 资源:项目页(LPR) · 方法共享见 卡片-GraspGen

🧰 对我们(可用性速判)

  • 对我们的用处:解决"换夹爪/换本体抓取要重训"的痛点——如果我们会在不同末端(平行爪/多指手)上做操作,这套"夹爪表示当条件"的思路能省大量重训。是 SRL 抓取线从"单夹爪"走向"通用"的关键一步。
  • 真实性(前期):高(方法)/中(成熟度)。承接已开源的 GraspGen,方法+消融扎实、真机零样本验证;但为预印本,X 版代码/权重是否单独开放待确认 → 证据 A(依托 GraspGen 开源体系)。
  • 训练/微调资源:预训练极重(20 亿抓取、数据生成"一个 8-GPU 节点一周/单本体");但微调很轻:新夹爪 140K 抓取(~28 GPU 时生成)+ 4×A100×4h 即可,且 X 是更好的 SFT 初始化。
  • 能借多少(开源):主方法/主库开源(NVlabs/GraspGen);20 亿数据/程序化夹爪生成器(基于 Infinigen-Sim)是亮点资产(开放程度待确认)。
  • 可用性结论思路直接可借 / 换夹爪场景可用;即用成熟度略低于 GraspGen 主版。
  • 📖 共享方法(扩散/判别器/On-Generator)见 卡片-GraspGen,此处只记跨本体增量。

亮点(增量,读全文后定位)

  • swept-volume 夹爪表示:把夹爪从张开→闭合的扫掠体积当作几何编码喂给扩散生成器条件——比只调 z 轴偏移的 retargeting 更懂"手指几何 + 接触动力学"。消融显示它比 AdaGrasp 的 TSDF 编码等更高效。[1]
  • 程序化夹爪(procedural grippers):用 Infinigen-Sim(Blender 几何节点) 按类别(平行/2指旋转/3指高自由度)随机生成 50 种夹爪 → 训练分布更广、覆盖真实测试夹爪之外,避免只用 10 种真实夹爪导致的分布偏窄。[1]
  • 20 亿抓取:ACRONYM pipeline 在程序化夹爪上生成,号称最大多本体抓取数据集。
  • 端到端跨本体 > 位姿重定向:直接学跨本体模型,比"单本体模型 + 姿态修正"更优,尤其高自由度多指手。

关键数字(全文核实,Table 1:零样本新夹爪+新物体成功率)

  • 全 10 个测试夹爪均值:GraspGen-X 0.506 vs RTG(重定向)0.398 vs DTR(直接迁移)0.126 —— 比 RTG +25%、比 DTR +200%+。[1]
  • 分类:平行爪 0.502 / 2指旋转 0.413 / 3指高自由度 0.699(相对提升近 40%)。[1]
  • OOD 5 指灵巧手(训练完全没见过):Surge Hand 0.404、Inspire Hand 0.363——仍可用。[1]
  • 微调:GraspGen-X-SFT 学习曲线优于"从头训"和"Franka 单本体微调",是更好的新夹爪初始化。[1]

🔎 证据与可信度

  • 论文arXiv 2606.00998(NVIDIA SRL + Princeton;Beining Han/Jia Deng 等;2026-05)✅ 全文已读。
  • 代码/数据:依托 NVlabs/GraspGen 开源体系(X 版单独发布状态待确认)。
  • 证据等级:A(方法+消融+真机零样本,依托开源主库)→ 权重:中(偏上)(预印本、X 版权重开放待确认,故不给满)。

🧱 局限

  • 预训练成本巨大(20 亿抓取);不同夹爪间仍有性能差(形态/指几何/闭合物理差异)。
  • 仍是位姿级抓取(pinch/多指抓取姿态),接触后的力控/触觉精调不在范围。
  • 依赖程序化夹爪分布能覆盖目标夹爪类别;X 版开源完整度待确认。

💡 我的批注 / 判断

  • "把本体/末端参数显式喂进模型当条件"是跨本体的通法:GraspGen-X 用 swept-volume 编码夹爪,和 卡片-FTP-1 用 MTTS 编码不同触觉传感器、GR00T 用统一动作空间跨本体(卡片-GR00T-N1)是同一招在不同层的体现——异构硬件 → 统一可条件化表示 → 一个模型跨全部。这是个值得记的跨论文模式。
  • 卡片-GraspGen 配套:主版求"单夹爪极致可靠+能上真机",X 版求"任意夹爪零样本"。做落地先用主版;要频繁换末端再上 X。

来源编号

  • [1] arXiv 2606.00998 · 本地 papers/GraspGen-DiffusionGrasping-2606.00998.pdf(全文精读 2026-07-01)