跳转至

机器人知识库

WorldVLA —— 把世界模型与 VLA 合一的自回归动作世界模型

WorldVLA（自回归动作世界模型）¶

📌 一句话：把 VLA 与世界模型统一在一个自回归框架——世界模型用动作+图像预测未来画面，动作模型从观测生成下一步动作，两者互相增强。

🧰 对我们（速判）¶

"世界模型 × VLA 融合"最新代表：和卡片-LaWAM 的"语言-动作-世界"一脉相承，可对照看融合路线差异。
真实性：高（阿里，2025）→ 证据 A。
能借：统一框架 + 选择性注意力掩码抑制自回归动作的误差累积这一工程技巧。

关键（摘要级）¶

📄 单一自回归框架内，世界模型与动作模型互为增强。
📄 用选择性注意力掩码缓解动作 chunk 自回归生成的误差传播。

来源¶

📄 WorldVLA: Towards Autoregressive Action World Model, arXiv 2506.21539