Voyager：让 GPT-4 自己在 Minecraft 里"写技能、攒技能库、越玩越强"¶

📅 2023-05(v2 2023-10) · 🏛 NVIDIA GEAR + Caltech/UT Austin/Stanford/UW · 🏷 LLM 具身 agent / 技能库范式 📌 一句话省流：首个无人干预、终身学习的 LLM 具身 agent。它让 GPT-4 自动出任务(课程)→写一段可执行代码去完成→跑出来看反馈/报错→改到自我验证通过→把这段代码当"技能"存进库、以后按需检索复用。技能越攒越多、可组合，能力像滚雪球一样涨，还不遗忘。 ≈ 打比方：给 AI 一个"边玩边记笔记的技能本"——每学会一件事就写成一个带名字的函数存起来，下次遇到类似情况直接翻出来用/拼起来用。 🎬 演示/资源：项目页 voyager.minedojo.org · 代码 github.com/MineDojo/Voyager

🧰 对我们（可用性速判）¶

对我们的用处：理解"agentic 技能库"范式的必读源头。它把追踪-NVIDIA-ASPIRE 那套"技能=可读可复用代码 + 检索注入上下文 + 自我验证闭环"讲得最清楚——ASPIRE 本质是 Voyager 从 Minecraft 搬到真机器人（且同一批作者）。也直接印证你"和 Claude Code skills 很像"的直觉：能力单元是人可读、可组合、可检索的代码，不是黑箱权重。
真实性(前期)：高。论文 + 代码全开源 + 广泛复现引用 → 证据 A。
训练/微调资源：零训练/零微调——纯黑箱调 GPT-4/GPT-3.5 API（in-context），不碰模型参数。成本在 API 调用。
能借多少(开源)：✅ 全部（代码 + prompt + 环境）。技能库是即插即用资产：论文里把 Voyager 的技能库给 AutoGPT 用也能涨分。
可用性结论：思路直接可借（技能库/自我验证/迭代提示三件套是通用 agent 设计模式）；作为机器人系统需换掉 Minecraft API 那层（这正是 ASPIRE 做的事）。
📖 详读（按需）：暂未做（本卡已覆盖全文要点）。

亮点到底在哪（读全文后定位）¶

亮点=三个模块的组合闭环（Fig.2）：
自动课程(Automatic Curriculum)：GPT-4 按"发现尽量多样的东西"这一总目标，结合 agent 当前状态/库存/已完成失败任务，自底向上不断出难度合适的新任务（in-context 版 novelty search）。
技能库(Skill Library)：每个技能 = 一段可执行代码；用 GPT-3.5 生成的描述 embedding 作 key、代码作 value 存进向量库；新任务来时用"任务计划+环境反馈"的 embedding 检索 top-5 相关技能塞进上下文。复杂技能由简单技能组合而成 → 能力复利、缓解灾难性遗忘。
迭代提示(Iterative Prompting)：三类反馈驱动自改进——环境反馈(如"还差7个铁锭")+执行报错(代码解释器)+自我验证(另起一个 GPT-4 当 critic 判成功/给批评)。改到验证通过才入库；卡住 4 轮就换任务。
code-as-action-space：用代码当动作空间（而非底层马达指令），天然表达时序长、可组合的动作——这是长时程任务的关键设计，也是 code-as-policy 一脉。
消融证明每个组件都关键（见下），尤其 self-verification 最重要。

🧬 与其他工作的关系¶

作者血统 = GEAR 核心：Guanzhi Wang、Yuke Zhu、Jim Fan、Anima Anandkumar 等——和追踪-NVIDIA-ASPIRE 是同一批人。谱系：MineDojo(2022)→Voyager(2023)→ASPIRE/ENPIRE(2026, 机器人版)。见 NVIDIA GEAR。
区别于 ReAct/Reflexion/AutoGPT：它们没有持久技能库、没有自动课程、自我验证较弱；Voyager 的技能库是可累积、可迁移、可插拔的知识资产。
与 Claude Code skills 范式同构：可读代码/文档作能力单元、按需检索注入上下文。区别：Claude skills 人写静态；Voyager/ASPIRE 由 agent 自动生成+自我验证。

关键数字（全文核实）¶

探索：160 轮提示内发现 63 种独特物品，为次优的 3.3×。[Fig.1]
科技树（越少轮越好）：解锁木器 15.3× 快、石器 8.5×、铁器 6.4×；唯一解锁钻石级(102轮,1/3)。ReAct/Reflexion 全 0/3。[Table 1]
地图遍历：距离为基线的 2.3×。
新世界零样本泛化：清空库存+全新世界，4 个未见任务 Voyager 全解(3/3)，基线全 0；技能库给 AutoGPT 用也能涨(即插即用)。[Table 2]
消融：去自动课程物品数 −93%；去自我验证 −73%(最关键反馈)；GPT-4 换 GPT-3.5 → 物品数差 5.7×；去技能库后期明显 plateau。[Fig.9]

🔎 证据与可信度¶

论文：arXiv 2305.16291（NVIDIA GEAR 等）✅ 全文已读。
代码：github.com/MineDojo/Voyager ✅全开源（含 prompt）。
第三方：高被引、广泛复现，agentic 领域奠基性工作之一。
证据等级：A（论文 + 开源代码 + 广泛复现 + 消融充分）→ 权重：高。

🧪 复现/采用成本¶

无需训练：纯 API 调用（GPT-4 code 生成 + GPT-3.5 embedding/辅助）。主要成本 = GPT-4 API 费（论文指出比 GPT-3.5 贵 15×，但代码质量是刚需）。
环境：MineDojo + Mineflayer(JS)。
迁移到机器人：需把 Minecraft 高层 API 换成机器人 primitive API + 真实执行/验证（= ASPIRE 路线）。

🧱 局限（正文 §4）¶

成本高：依赖 GPT-4（贵、且当时开源/GPT-3.5 顶不上）。
偶发出错：迭代提示仍会卡壳；自我验证偶尔误判。
无视觉感知：当时 GPT-4 API 纯文本，靠符号状态；3D 建造需人给视觉反馈。→ 后续 GEAR 工作(GR00T/ASPIRE)正是补上感知/真机这环。

💡 我的批注 / 判断¶

这是读懂 ASPIRE / "机器人 skill 库"的钥匙：ASPIRE = Voyager 的三件套(课程/技能库/自我验证迭代) + 真机多模态 trace + 进化搜索。你之前关心的"skill 像不像 Claude skills"，答案的根就在这：GEAR 从 2023 起就押注"技能=可读可复用代码库"这条路。
对我们纵线(触觉×VLA)的启发：触觉策略能否也走"技能库 + 自我验证闭环"来降低真机采数？（vs 端到端 VLA）——是个值得记的对照 idea。
元观察：Voyager 靠 GPT-4、ASPIRE 靠 Claude Opus 4.6——底座 LLM 的代码能力是这套范式的命门（消融里 GPT-4 vs 3.5 差 5.7× 是铁证）。

来源编号¶

[1] arXiv 2305.16291 · 项目/代码 voyager.minedojo.org · 本地 papers/Voyager-OpenEndedEmbodiedAgent-2305.16291.pdf（全文精读 2026-07-01）