跳转至

Voyager:让 GPT-4 自己在 Minecraft 里"写技能、攒技能库、越玩越强"

📅 2023-05(v2 2023-10) · 🏛 NVIDIA GEAR + Caltech/UT Austin/Stanford/UW · 🏷 LLM 具身 agent / 技能库范式 📌 一句话省流:首个无人干预、终身学习的 LLM 具身 agent。它让 GPT-4 自动出任务(课程)→写一段可执行代码去完成→跑出来看反馈/报错→改到自我验证通过→把这段代码当"技能"存进库、以后按需检索复用。技能越攒越多、可组合,能力像滚雪球一样涨,还不遗忘。 ≈ 打比方:给 AI 一个"边玩边记笔记的技能本"——每学会一件事就写成一个带名字的函数存起来,下次遇到类似情况直接翻出来用/拼起来用。 🎬 演示/资源:项目页 voyager.minedojo.org · 代码 github.com/MineDojo/Voyager

🧰 对我们(可用性速判)

  • 对我们的用处理解"agentic 技能库"范式的必读源头。它把 追踪-NVIDIA-ASPIRE 那套"技能=可读可复用代码 + 检索注入上下文 + 自我验证闭环"讲得最清楚——ASPIRE 本质是 Voyager 从 Minecraft 搬到真机器人(且同一批作者)。也直接印证你"和 Claude Code skills 很像"的直觉:能力单元是人可读、可组合、可检索的代码,不是黑箱权重。
  • 真实性(前期):高。论文 + 代码全开源 + 广泛复现引用 → 证据 A。
  • 训练/微调资源零训练/零微调——纯黑箱调 GPT-4/GPT-3.5 API(in-context),不碰模型参数。成本在 API 调用。
  • 能借多少(开源):✅ 全部(代码 + prompt + 环境)。技能库是即插即用资产:论文里把 Voyager 的技能库给 AutoGPT 用也能涨分。
  • 可用性结论思路直接可借(技能库/自我验证/迭代提示三件套是通用 agent 设计模式);作为机器人系统需换掉 Minecraft API 那层(这正是 ASPIRE 做的事)。
  • 📖 详读(按需):暂未做(本卡已覆盖全文要点)。

亮点到底在哪(读全文后定位)

  • 亮点=三个模块的组合闭环(Fig.2):
  • 自动课程(Automatic Curriculum):GPT-4 按"发现尽量多样的东西"这一总目标,结合 agent 当前状态/库存/已完成失败任务,自底向上不断出难度合适的新任务(in-context 版 novelty search)。
  • 技能库(Skill Library):每个技能 = 一段可执行代码;用 GPT-3.5 生成的描述 embedding 作 key、代码作 value 存进向量库;新任务来时用"任务计划+环境反馈"的 embedding 检索 top-5 相关技能塞进上下文。复杂技能由简单技能组合而成 → 能力复利、缓解灾难性遗忘。
  • 迭代提示(Iterative Prompting):三类反馈驱动自改进——环境反馈(如"还差7个铁锭")+执行报错(代码解释器)+自我验证(另起一个 GPT-4 当 critic 判成功/给批评)。改到验证通过才入库;卡住 4 轮就换任务。
  • code-as-action-space:用代码当动作空间(而非底层马达指令),天然表达时序长、可组合的动作——这是长时程任务的关键设计,也是 code-as-policy 一脉。
  • 消融证明每个组件都关键(见下),尤其 self-verification 最重要

🧬 与其他工作的关系

  • 作者血统 = GEAR 核心:Guanzhi Wang、Yuke Zhu、Jim Fan、Anima Anandkumar 等——追踪-NVIDIA-ASPIRE 是同一批人。谱系:MineDojo(2022)→Voyager(2023)→ASPIRE/ENPIRE(2026, 机器人版)。见 NVIDIA GEAR
  • 区别于 ReAct/Reflexion/AutoGPT:它们没有持久技能库、没有自动课程、自我验证较弱;Voyager 的技能库是可累积、可迁移、可插拔的知识资产。
  • 与 Claude Code skills 范式同构:可读代码/文档作能力单元、按需检索注入上下文。区别:Claude skills 人写静态;Voyager/ASPIRE 由 agent 自动生成+自我验证。

关键数字(全文核实)

  • 探索:160 轮提示内发现 63 种独特物品,为次优的 3.3×。[Fig.1]
  • 科技树(越少轮越好):解锁木器 15.3× 快、石器 8.5×、铁器 6.4×唯一解锁钻石级(102轮,1/3)。ReAct/Reflexion 全 0/3。[Table 1]
  • 地图遍历:距离为基线的 2.3×
  • 新世界零样本泛化:清空库存+全新世界,4 个未见任务 Voyager 全解(3/3),基线全 0;技能库给 AutoGPT 用也能涨(即插即用)。[Table 2]
  • 消融:去自动课程物品数 −93%;去自我验证 −73%(最关键反馈);GPT-4 换 GPT-3.5 → 物品数差 5.7×;去技能库后期明显 plateau。[Fig.9]

🔎 证据与可信度

  • 论文arXiv 2305.16291(NVIDIA GEAR 等)✅ 全文已读。
  • 代码github.com/MineDojo/Voyager全开源(含 prompt)。
  • 第三方:高被引、广泛复现,agentic 领域奠基性工作之一。
  • 证据等级:A(论文 + 开源代码 + 广泛复现 + 消融充分)→ 权重:高

🧪 复现/采用成本

  • 无需训练:纯 API 调用(GPT-4 code 生成 + GPT-3.5 embedding/辅助)。主要成本 = GPT-4 API 费(论文指出比 GPT-3.5 贵 15×,但代码质量是刚需)。
  • 环境:MineDojo + Mineflayer(JS)。
  • 迁移到机器人:需把 Minecraft 高层 API 换成机器人 primitive API + 真实执行/验证(= ASPIRE 路线)。

🧱 局限(正文 §4)

  • 成本高:依赖 GPT-4(贵、且当时开源/GPT-3.5 顶不上)。
  • 偶发出错:迭代提示仍会卡壳;自我验证偶尔误判。
  • 无视觉感知:当时 GPT-4 API 纯文本,靠符号状态;3D 建造需人给视觉反馈。→ 后续 GEAR 工作(GR00T/ASPIRE)正是补上感知/真机这环。

💡 我的批注 / 判断

  • 这是读懂 ASPIRE / "机器人 skill 库"的钥匙:ASPIRE = Voyager 的三件套(课程/技能库/自我验证迭代) + 真机多模态 trace + 进化搜索。你之前关心的"skill 像不像 Claude skills",答案的根就在这:GEAR 从 2023 起就押注"技能=可读可复用代码库"这条路
  • 对我们纵线(触觉×VLA)的启发:触觉策略能否也走"技能库 + 自我验证闭环"来降低真机采数?(vs 端到端 VLA)——是个值得记的对照 idea。
  • 元观察:Voyager 靠 GPT-4、ASPIRE 靠 Claude Opus 4.6——底座 LLM 的代码能力是这套范式的命门(消融里 GPT-4 vs 3.5 差 5.7× 是铁证)。

来源编号