追踪 · NVIDIA GEAR「ASPIRE」¶
📌 一句话:NVIDIA GEAR 的自我改进持续学习机器人系统——让一个 coding agent 自己写→跑→看 trace→诊断失败→改代码→验证→把成功的修复沉淀成可复用技能库,"代码即策略(code-as-policy)"。声称双臂 handover 经迭代 debug 从 20%→92%,技能可跨任务/跨本体零样本迁移。⚠️论文和代码都还没放出(coming soon)。 🎬 追踪:项目页 research.nvidia.com/labs/gear/aspire
现状(到哪一步)✅页面已核 / 🟡一手未出¶
- 项目页已上线(2026),图文+任务/技能画廊+结果表俱全;但Paper 链接是占位符、Code 标 coming soon——目前无法拿到论文正文与代码。
- BibTeX 条目已给:
lu2026aspire。年份 2026。
它做什么 / 三大组件 ✅(据官方描述)¶
发布于 2026-06-29。开放式(open-ended)学习闭环,三件套: 1. 闭环执行引擎(Closed-Loop Robot Execution Engine) — 对每次感知/规划/抓取/控制调用记录观测/输入/输出/视觉证据的细粒度多模态 trace;agent 据此选择性检视日志、逐步定位失败、并靠重跑验证修复。 2. 持续扩张的技能库(Skill Library) — 把验证通过的 fix 蒸馏成模块化、可迁移的机器人知识,作为"in-context guidance"被检索注入下一任务;画廊里分 18 个类别、各含多个技能。 3. 程序进化搜索(Evolutionary Search over Programs) — 生成多样的任务序列与控制程序,超越单轨迹自改进(迭代 debug + 并行 refine)。
🔑 skill 到底是什么(这条最关键,🟡二手报道口径)¶
- skill = 有名字的、可复用的代码片段:每一次调试修复都被存成一个 named, reusable code pattern;技能库 = "一个 sensorimotor 技能的 repo"。
- 承接 Code as Policies(Jacky Liang, Google 2022):原范式每任务重新生成代码、用完丢弃调试历史;ASPIRE 的核心推进是持久化——把历史攒成"复利式的机构记忆"。
- 金句:机器人智能的基本单元从"你读不懂的(神经网络权重)"变成"你读得懂的(命名可执行代码)";甚至可把"学到的权重"当 HTML 页面发出去、而非 GGUF——即技能是人类可读、可分享的文本/代码。
- 👉 与 Claude Code skills 范式同构:能力单元 = 人可读/可审/可复用的代码-文档、按需检索注入上下文,而非黑箱 checkpoint。区别:Claude skills 人写的静态说明书;ASPIRE skills 由 agent 自跑机器人生成、且经真机验证、可执行。谱系上更是 GEAR Voyager(2023)"自写技能库" 的机器人版延续。
关键结果 📄论文口径(🟡待一手复核)¶
- Robosuite 接触密集操作:双臂 handover 成功率 20% → 92%(靠迭代 debug)。
- LIBERO-PRO:跨物体类型/位置的泛化。
- BEHAVIOR-1K:长时程移动操作(含导航指标)。
- 声称:LIBERO-90 学到的技能迁移到 held-out 长程任务;库越大 → LIBERO-Long 成功率越高;sim→real 跨本体技能迁移,显著降低真机编程 token 成本;整体超过 VLA 与 coding-agent 基线。
- 规模数字(🟡二手报道):覆盖 150+ 种任务,自主发现 90+ 个可复用技能;跨硬件迁移约省 10× token。
- ⚠️ 以上均为官网自述+论文/二手报道口径,无第三方独立复现,论文正文未出,按待验证对待。
局限(官方自陈,罕见地实在)✅¶
- 非全自动真机部署(仍需人)。
- 依赖前沿 LLM —— 明确写用的是 Claude Opus 4.6(👀 这套机器人 coding agent 的底座是 Claude)。
- 受限于预定义的 primitive API。
- 长期记忆管理不完善。
- 搜索循环计算昂贵。
团队 ✅(隶属 NVIDIA GEAR)¶
- 共一/共同负责:Runyu Lu(UMich 博士/NVIDIA,本科华科)、Yubo Wu、Ethan Kou、Max Fu、Wenli Xiao。
- 合作者:Ajay Mandlekar(NVIDIA)、Yinzhen Xu、Guanya Shi(CMU LeCAR)、Ken Goldberg(Berkeley AUTOLab)、Ang Chen、Mosharaf Chowdhury(UMich SymbioticLab)。
- 项目负责人:Yuke Zhu、Linxi "Jim" Fan、Guanzhi Wang(GEAR 三巨头)。
- 机构:NVIDIA GEAR + UMich SymbioticLab + UC Berkeley AUTOLab + CMU LeCAR。
- 姊妹项目 ENPIRE:同 GEAR,做真机上的 agentic 策略自改进,一并盯。
⚠️ 命名/易混淆辨析(重要)¶
- 别混淆:搜索会把 arXiv 2405.15019 "Agentic Skill Discovery"(Xufeng Zhao/Weber/Wermter, 2024-05, "Zero-Hero") 及其仓库
github.com/xf-zhao/Agentic-Skill-Discovery当成本项目——那是完全不相干的另一篇论文,与 NVIDIA 无关,仅名字近似。NVIDIA ASPIRE 目前没有公开代码/arXiv。
与我们(landscape,中性)¶
- 路线是 agentic + code-as-policy + 技能库自积累,不同于我们纵线的"触觉×VLA 端到端",但在"如何自动获得/复用操作技能、如何降低真机部署成本"上有交集,且它自称能跨本体迁移技能——值得作为"非 VLA 的另一条技能获取范式"对照观察。
- 一个可复用的元观察:顶级机器人 coding-agent 系统开始明确以 Claude Opus 为底座(接 机器人现状追踪)。
🧠 架构推断:ASPIRE 大概率"没训大脑、是自研 agent loop + 冻结 Claude"(🔶推断 · 判断来源 🧑ding 提出 + 🤖整理;论文未出,🟡待验证)¶
依据 = 官方项目页自述(含局限) + 卡片-Voyager 血统反推。论文/代码放出前,以下均为合理推断,非已核事实。
核心推断:ASPIRE 的"智能/策略层"几乎不涉及模型训练,本体是一套自研的 agent 循环——现代 agent 主流范式就是"LLM 在 loop 里反复调用工具/按需加载能力模块(skill 是其一)",底座直接用冻结的 Claude Opus 4.6。
支撑链: 1. code-as-policy = 写程序不是更新权重;官方"把'学到的权重'当 HTML 页面而非 GGUF 发出去"≈ 明说知识是可读代码、不是 checkpoint。 2. 局限"依赖前沿 LLM(Claude Opus 4.6)" = 能力来自冻结通用 LLM,非自训策略。 3. 血统:同组 卡片-Voyager 已被证明纯黑箱 LLM + 技能库、零 fine-tune;ASPIRE = 其机器人版,几乎必然沿用 training-free 路线。 4. 三条局限恰是 training-free + 技能库 + 推理时搜索系统的典型故障模式,反向佐证该读法: - "搜索循环昂贵" ← 把训练成本换成推理时搜索(大量 rollout × LLM 调用)。 - "长期记忆管理不完善" ← 技能库当记忆的扩展性难题(越攒越大→检索/裁剪/不炸上下文)。 - "受限于预定义 primitive API" ← LLM 写代码编排一组固定 primitive。
两条关键澄清(避免过度推断): - 用"Claude(模型/API)" ≠ 用"Claude Code(产品) / SKILL.md(格式)"。ASPIRE 与 Claude Code Skills 是同一范式(可读可复用代码 + 按需加载 + 自我验证)的趋同演化,无证据表明它复用了 Anthropic 的 skill 基础设施;其技能库更像 Voyager 的"代码 + 描述 embedding 检索"自建库。 - "自己写个能加载 skill 的 agent loop"是 commodity 工程——所以 ASPIRE 的论文价值不在那个 loop,而在外围机器人专用机制:闭环执行/trace 诊断、程序进化搜索、技能库当复利记忆、真机重跑验证。 - nuance:training-free 限于"大脑层"。它编排的底层 primitive(感知/规划/抓取/控制)本身可能是预训练神经网络(如同体系的 GraspGen/卡片-FoundationPose 那类)。最准画像:大脑层 training-free(写代码的 Claude)+ 手脚层可能是现成训练模型。
🔎 回访清单(论文/代码放出前需盯)¶
- [ ] arXiv 论文正文出没出(占位符
#是否转正)→ 出后补一张详读卡。 - [ ] 代码仓库(coming soon)是否上线、开源程度、依赖哪套 API/仿真。
- [ ] 验证上面的架构推断:(a) 有无任何梯度训练,还是纯 in-context?(b) "skill"的存储/检索/格式——类 SKILL.md 结构化文档,还是纯代码 + embedding 索引?(c) primitive API 里有多少是预训练模型?(d) agent loop 是否自研、用没用现成 agent 框架?
- [ ] 姊妹项目 ENPIRE 的真机结果。
- [ ] 是否有第三方独立复现/基准,验证 20%→92%、跨本体迁移等口径。
来源(引用前核)¶
- 📄 NVIDIA GEAR 项目页 research.nvidia.com/labs/gear/aspire/(2026-07-01 查看)。
- 📄 ENPIRE 项目页 research.nvidia.com/labs/gear/enpire/。
- ⚠️ 所有性能数字均为官网/论文口径,论文与代码未放出,无第三方复现——整体 🟡待验证。