跳转至

3D-VLA(3D 生成式世界模型)

📌 一句话:以 3D-LLM 为底,用"交互 token + 具身扩散模型"把 3D 感知、推理、动作通过一个生成式世界模型连起来,能想象未来状态再规划动作。 🔬 全文精读 + 关键图 + 数字详读-3D-VLA

🧰 对我们(速判)

  • 能借:✅ 代码 + ✅ 权重。需要 3D 输入 / 想做"世界模型预测后规划"时的开源参考。
  • 资源:依赖 3D 表示与点云,数据/算力门槛高于纯 2D VLA。
  • 证据:A(ICML 2024 + 开源)。

关键(摘要级)

  • 📄 架构:3D-based LLM + interaction tokens + embodied diffusion models。
  • 📄 生成式世界模型:先生成目标/未来状态,再据此规划动作。

来源