跳转至

机器人知识库

TraceVLA —— 把"运动轨迹"画成提示喂回 VLA，增强时空感知（OpenVLA +10%/真机3.5×）

TraceVLA：给机器人配"运动残影"，让它知道刚才手往哪走了¶

📅 2024-12 · 🏛 Microsoft/UMD · 🏷 VLA·视觉提示 📌 一句话省流：把机器人"状态-动作轨迹"画成可视化提示喂回 VLA，增强它对时空/运动的感知；在 SimplerEnv 上比 OpenVLA +10%、真机任务 3.5×。 ≈ 打比方：像给机器人加了"运动轨迹残影"，它能看见自己刚才怎么动的。 🎬 演示：见论文 ⚠️ 摘要级：仅读 arXiv 摘要，🧬关系为推断(🔶)，待补全文精读。

🧰 对我们（可用性速判）¶

对我们的用处：思路借鉴——"把时序信息画成图喂回模型"是个低成本提升时空感知的技巧；而且 4B 紧凑版≈7B OpenVLA，对轻量化部署有启发。
真实性(前期)：微软 + 有 SimplerEnv/真机双验证，可信度较高；🔶 数字未逐条核。
训练/微调资源：OpenVLA 微调级；紧凑版基于 Phi-3-Vision(4B)。
能借多少(开源)：代码开源状态待核；方法清晰可复刻。
可用性结论：思路可借鉴 / 待核代码。
📖 详读（按需）：暂无（摘要级）。

亮点（摘要级定位）¶

视觉轨迹提示(visual trace prompting)：把状态-动作轨迹编码成视觉形式叠回输入，强化时空动态理解。
效果硬：SimplerEnv +10%、真机 3.5×（vs OpenVLA）。
轻量化有戏：Phi-3-Vision 4B 变体 ≈ 7B OpenVLA。
评测面：SimplerEnv 137 配置 + 真机 WidowX 4 任务。

🧬 与其他工作的关系（🔶 推断，待全文核）¶

承接：卡片-OpenVLA（微调增强）；紧凑版用卡片-Open-X-Embodiment 预训练。
同组：与卡片-Magma 同为 Jianwei Yang 圈子——"标记/轨迹作为感知-动作中介"是共同主题。
对照：和卡片-ECoT 都是"给 VLA 加辅助信号提升泛化"，但 ECoT 加的是语言推理、TraceVLA 加的是视觉轨迹。

关键数字（每条带来源 [n]）¶

[1] 比 OpenVLA：SimplerEnv +10%、真机 3.5×（✅ arXiv 摘要）。
[2] 评测：SimplerEnv 137 配置 + 真机 WidowX 4 任务（✅ arXiv 摘要）。
[3] Phi-3-Vision(4B) 变体 ≈ 7B OpenVLA（✅ arXiv 摘要）。

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2412.10345（已核摘要；未读全文）。
代码：开源状态待核。
证据等级：C（摘要级）→ 权重：中(偏上)；核心主张 ✅，关系 🔶。

🧪 复现条件与成本（暂不亲做，只估）¶

基础：OpenVLA / Phi-3-Vision + Open-X 预训练。
时间估计：若代码开源，复现约 2 周。🔶

💡 我的批注 / 判断（🤖，待人复核）¶

"把辅助信息画成图喂回 VLA"是个通用且便宜的招——触觉版可设想：把"接触/力的时序"渲染成图叠回输入，对照卡片-AdapTac-PredictiveForceAttention。
轻量化(4B≈7B)那条对我们若要上真机很有价值，值得升全文确认细节。

来源编号¶

[1][2][3] arXiv 2412.10345 摘要（✅）。
🧬 关系：🤖 推断（🔶 待全文核）。