跳转至

机器人知识库

3D-VLA —— 把 3D 感知/推理/动作串起来的生成式世界模型

3D-VLA（3D 生成式世界模型）¶

📌 一句话：以 3D-LLM 为底，用"交互 token + 具身扩散模型"把 3D 感知、推理、动作通过一个生成式世界模型连起来，能想象未来状态再规划动作。 🔬 全文精读 + 关键图 + 数字：详读-3D-VLA

🧰 对我们（速判）¶

能借：✅ 代码 + ✅ 权重。需要 3D 输入 / 想做"世界模型预测后规划"时的开源参考。
资源：依赖 3D 表示与点云，数据/算力门槛高于纯 2D VLA。
证据：A（ICML 2024 + 开源）。

关键（摘要级）¶

📄 架构：3D-based LLM + interaction tokens + embodied diffusion models。
📄 生成式世界模型：先生成目标/未来状态，再据此规划动作。

来源¶

📄 3D-VLA: A 3D Vision-Language-Action Generative World Model, arXiv 2403.09631（ICML 2024）· 项目页 · 代码
关联：卡片-SpatialVLA · 卡片-GR-2（世界模型路线） · 概念-模型架构基础