3D-VLA(3D 生成式世界模型)¶
📌 一句话:以 3D-LLM 为底,用"交互 token + 具身扩散模型"把 3D 感知、推理、动作通过一个生成式世界模型连起来,能想象未来状态再规划动作。 🔬 全文精读 + 关键图 + 数字:详读-3D-VLA
🧰 对我们(速判)¶
- 能借:✅ 代码 + ✅ 权重。需要 3D 输入 / 想做"世界模型预测后规划"时的开源参考。
- 资源:依赖 3D 表示与点云,数据/算力门槛高于纯 2D VLA。
- 证据:A(ICML 2024 + 开源)。
关键(摘要级)¶
- 📄 架构:3D-based LLM + interaction tokens + embodied diffusion models。
- 📄 生成式世界模型:先生成目标/未来状态,再据此规划动作。
来源¶
- 📄 3D-VLA: A 3D Vision-Language-Action Generative World Model, arXiv 2403.09631(ICML 2024)· 项目页 · 代码
- 关联:卡片-SpatialVLA · 卡片-GR-2(世界模型路线) · 概念-模型架构基础