WorldVLA(自回归动作世界模型)¶
📌 一句话:把 VLA 与世界模型统一在一个自回归框架——世界模型用动作+图像预测未来画面,动作模型从观测生成下一步动作,两者互相增强。
🧰 对我们(速判)¶
- "世界模型 × VLA 融合"最新代表:和 卡片-LaWAM 的"语言-动作-世界"一脉相承,可对照看融合路线差异。
- 真实性:高(阿里,2025)→ 证据 A。
- 能借:统一框架 + 选择性注意力掩码抑制自回归动作的误差累积这一工程技巧。
关键(摘要级)¶
- 📄 单一自回归框架内,世界模型与动作模型互为增强。
- 📄 用选择性注意力掩码缓解动作 chunk 自回归生成的误差传播。