追踪 · NVIDIA GEAR「ASPIRE」¶

📌 一句话：NVIDIA GEAR 的自我改进持续学习机器人系统——让一个 coding agent 自己写→跑→看 trace→诊断失败→改代码→验证→把成功的修复沉淀成可复用技能库，"代码即策略(code-as-policy)"。声称双臂 handover 经迭代 debug 从 20%→92%，技能可跨任务/跨本体零样本迁移。⚠️论文和代码都还没放出(coming soon)。 🎬 追踪：项目页 research.nvidia.com/labs/gear/aspire

现状（到哪一步）✅页面已核 / 🟡一手未出¶

项目页已上线(2026)，图文+任务/技能画廊+结果表俱全；但Paper 链接是占位符、Code 标 coming soon——目前无法拿到论文正文与代码。
BibTeX 条目已给：lu2026aspire。年份 2026。

它做什么 / 三大组件 ✅（据官方描述）¶

发布于 2026-06-29。开放式(open-ended)学习闭环，三件套： 1. 闭环执行引擎(Closed-Loop Robot Execution Engine) — 对每次感知/规划/抓取/控制调用记录观测/输入/输出/视觉证据的细粒度多模态 trace；agent 据此选择性检视日志、逐步定位失败、并靠重跑验证修复。 2. 持续扩张的技能库(Skill Library) — 把验证通过的 fix 蒸馏成模块化、可迁移的机器人知识，作为"in-context guidance"被检索注入下一任务；画廊里分 18 个类别、各含多个技能。 3. 程序进化搜索(Evolutionary Search over Programs) — 生成多样的任务序列与控制程序，超越单轨迹自改进（迭代 debug + 并行 refine）。

🔑 skill 到底是什么（这条最关键，🟡二手报道口径）¶

skill = 有名字的、可复用的代码片段：每一次调试修复都被存成一个 named, reusable code pattern；技能库 = "一个 sensorimotor 技能的 repo"。
承接 Code as Policies(Jacky Liang, Google 2022)：原范式每任务重新生成代码、用完丢弃调试历史；ASPIRE 的核心推进是持久化——把历史攒成"复利式的机构记忆"。
金句：机器人智能的基本单元从"你读不懂的(神经网络权重)"变成"你读得懂的(命名可执行代码)"；甚至可把"学到的权重"当 HTML 页面发出去、而非 GGUF——即技能是人类可读、可分享的文本/代码。
👉 与 Claude Code skills 范式同构：能力单元 = 人可读/可审/可复用的代码-文档、按需检索注入上下文，而非黑箱 checkpoint。区别：Claude skills 人写的静态说明书；ASPIRE skills 由 agent 自跑机器人生成、且经真机验证、可执行。谱系上更是 GEAR Voyager(2023)"自写技能库" 的机器人版延续。

关键结果 📄论文口径（🟡待一手复核）¶

Robosuite 接触密集操作：双臂 handover 成功率 20% → 92%(靠迭代 debug)。
LIBERO-PRO：跨物体类型/位置的泛化。
BEHAVIOR-1K：长时程移动操作(含导航指标)。
声称：LIBERO-90 学到的技能迁移到 held-out 长程任务；库越大 → LIBERO-Long 成功率越高；sim→real 跨本体技能迁移，显著降低真机编程 token 成本；整体超过 VLA 与 coding-agent 基线。
规模数字(🟡二手报道)：覆盖 150+ 种任务，自主发现 90+ 个可复用技能；跨硬件迁移约省 10× token。
⚠️ 以上均为官网自述+论文/二手报道口径，无第三方独立复现，论文正文未出，按待验证对待。

局限（官方自陈，罕见地实在）✅¶

非全自动真机部署(仍需人)。
依赖前沿 LLM —— 明确写用的是 Claude Opus 4.6（👀 这套机器人 coding agent 的底座是 Claude）。
受限于预定义的 primitive API。
长期记忆管理不完善。
搜索循环计算昂贵。

团队 ✅（隶属 NVIDIA GEAR）¶

共一/共同负责：Runyu Lu(UMich 博士/NVIDIA，本科华科)、Yubo Wu、Ethan Kou、Max Fu、Wenli Xiao。
合作者：Ajay Mandlekar(NVIDIA)、Yinzhen Xu、Guanya Shi(CMU LeCAR)、Ken Goldberg(Berkeley AUTOLab)、Ang Chen、Mosharaf Chowdhury(UMich SymbioticLab)。
项目负责人：Yuke Zhu、Linxi "Jim" Fan、Guanzhi Wang（GEAR 三巨头）。
机构：NVIDIA GEAR + UMich SymbioticLab + UC Berkeley AUTOLab + CMU LeCAR。
姊妹项目 ENPIRE：同 GEAR，做真机上的 agentic 策略自改进，一并盯。

⚠️ 命名/易混淆辨析（重要）¶

别混淆：搜索会把 arXiv 2405.15019 "Agentic Skill Discovery"(Xufeng Zhao/Weber/Wermter, 2024-05, "Zero-Hero") 及其仓库 github.com/xf-zhao/Agentic-Skill-Discovery 当成本项目——那是完全不相干的另一篇论文，与 NVIDIA 无关，仅名字近似。NVIDIA ASPIRE 目前没有公开代码/arXiv。

与我们（landscape，中性）¶

路线是 agentic + code-as-policy + 技能库自积累，不同于我们纵线的"触觉×VLA 端到端"，但在"如何自动获得/复用操作技能、如何降低真机部署成本"上有交集，且它自称能跨本体迁移技能——值得作为"非 VLA 的另一条技能获取范式"对照观察。
一个可复用的元观察：顶级机器人 coding-agent 系统开始明确以 Claude Opus 为底座（接机器人现状追踪）。

🧠 架构推断：ASPIRE 大概率"没训大脑、是自研 agent loop + 冻结 Claude"（🔶推断 · 判断来源 🧑ding 提出 + 🤖整理；论文未出，🟡待验证）¶

依据 = 官方项目页自述(含局限) + 卡片-Voyager 血统反推。论文/代码放出前，以下均为合理推断，非已核事实。

核心推断：ASPIRE 的"智能/策略层"几乎不涉及模型训练，本体是一套自研的 agent 循环——现代 agent 主流范式就是"LLM 在 loop 里反复调用工具/按需加载能力模块(skill 是其一)"，底座直接用冻结的 Claude Opus 4.6。

支撑链： 1. code-as-policy = 写程序不是更新权重；官方"把'学到的权重'当 HTML 页面而非 GGUF 发出去"≈ 明说知识是可读代码、不是 checkpoint。 2. 局限"依赖前沿 LLM(Claude Opus 4.6)" = 能力来自冻结通用 LLM，非自训策略。 3. 血统：同组卡片-Voyager 已被证明纯黑箱 LLM + 技能库、零 fine-tune；ASPIRE = 其机器人版，几乎必然沿用 training-free 路线。 4. 三条局限恰是 training-free + 技能库 + 推理时搜索系统的典型故障模式，反向佐证该读法： - "搜索循环昂贵" ← 把训练成本换成推理时搜索(大量 rollout × LLM 调用)。 - "长期记忆管理不完善" ← 技能库当记忆的扩展性难题(越攒越大→检索/裁剪/不炸上下文)。 - "受限于预定义 primitive API" ← LLM 写代码编排一组固定 primitive。

两条关键澄清（避免过度推断）： - 用"Claude(模型/API)" ≠ 用"Claude Code(产品) / SKILL.md(格式)"。ASPIRE 与 Claude Code Skills 是同一范式(可读可复用代码 + 按需加载 + 自我验证)的趋同演化，无证据表明它复用了 Anthropic 的 skill 基础设施；其技能库更像 Voyager 的"代码 + 描述 embedding 检索"自建库。 - "自己写个能加载 skill 的 agent loop"是 commodity 工程——所以 ASPIRE 的论文价值不在那个 loop，而在外围机器人专用机制：闭环执行/trace 诊断、程序进化搜索、技能库当复利记忆、真机重跑验证。 - nuance：training-free 限于"大脑层"。它编排的底层 primitive(感知/规划/抓取/控制)本身可能是预训练神经网络(如同体系的 GraspGen/卡片-FoundationPose 那类)。最准画像：大脑层 training-free（写代码的 Claude）+ 手脚层可能是现成训练模型。

🔎 回访清单（论文/代码放出前需盯）¶

[ ] arXiv 论文正文出没出（占位符 # 是否转正）→ 出后补一张详读卡。
[ ] 代码仓库(coming soon)是否上线、开源程度、依赖哪套 API/仿真。
[ ] 验证上面的架构推断：(a) 有无任何梯度训练，还是纯 in-context？(b) "skill"的存储/检索/格式——类 SKILL.md 结构化文档，还是纯代码 + embedding 索引？(c) primitive API 里有多少是预训练模型？(d) agent loop 是否自研、用没用现成 agent 框架？
[ ] 姊妹项目 ENPIRE 的真机结果。
[ ] 是否有第三方独立复现/基准，验证 20%→92%、跨本体迁移等口径。

来源（引用前核）¶

📄 NVIDIA GEAR 项目页 research.nvidia.com/labs/gear/aspire/（2026-07-01 查看）。
📄 ENPIRE 项目页 research.nvidia.com/labs/gear/enpire/。
⚠️ 所有性能数字均为官网/论文口径，论文与代码未放出，无第三方复现——整体 🟡待验证。