Magma:同时考下"电脑操作"和"机械臂操作"两张驾照的通用智能体¶
📅 2025-02 · 🏛 Microsoft · 🏷 多模态智能体基础模型 📌 一句话省流:微软的"多模态 agent"基础模型——一个模型同时会操作软件界面(点按钮/导航)和操控机器人;靠两招把"看"接到"做":给图里能操作的东西打标号(Set-of-Mark)、给视频里物体/手的运动轨迹打标(Trace-of-Mark),在图像/视频/机器人数据上一起预训练。 ≈ 打比方:先在"屏幕世界"和"物理世界"都练过手的通用打工人。 🎬 演示:见论文 ⚠️ 摘要级:仅读 arXiv 摘要,🧬关系为推断(🔶),待补全文精读。
🧰 对我们(可用性速判)¶
- 对我们的用处:思路借鉴——SoM/ToM 这种"用标记把感知和动作对齐"的中介表征,和 ReKep 的"关键点"、TraceVLA 的"轨迹"是同一家族;以及"数字+物理统一预训练"的视野。对我们:可想"触觉/接触点也打标"接进来。
- 真实性(前期):微软 + CVPR 2025 + 代码公开,可信度高;🔶 具体数字未逐条核。
- 训练/微调资源:基础模型预训练(重);下游可微调。
- 能借多少(开源):✅ 代码公开。
- 可用性结论:思路借鉴 / 可研究复用。
- 📖 详读(按需):暂无(摘要级)。
亮点(摘要级定位)¶
- Set-of-Mark (SoM):给图像里可操作对象(按钮等)打标号 → 动作 grounding。
- Trace-of-Mark (ToM):给视频里物体/手臂运动轨迹打标 → 动作规划。
- 异构预训练:图像 + 视频 + 机器人数据一起练。
- 跨域 SOTA:UI 导航 + 机器人操作均刷新 SOTA;在图像/视频任务上也与更大的多模态模型竞争。
🧬 与其他工作的关系(🔶 推断,待全文核)¶
- 同组主题:与 卡片-TraceVLA(同为 Jianwei Yang 圈)共享"标记/轨迹作中介"的思路。
- 中介表征家族:与 卡片-ReKep(关键点约束)异曲同工——都在"感知与动作之间"塞一层可操作的中间表征。
- 定位:把 VLM 扩成既能数字界面又能物理操作的 agentic 基础模型。
关键数字(每条带来源 [n])¶
- [1] 在 UI 导航 + 机器人操作任务上达到 SOTA(✅ arXiv 摘要,定性;具体数字 🟡 待全文)。
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2502.13130,CVPR 2025(已核摘要;未读全文)。
- 代码:✅ 公开。
- 证据等级:C(摘要级)→ 权重:中(偏上);核心主张 ✅,数字 🟡,关系 🔶。
🧪 复现条件与成本(暂不亲做,只估)¶
- 预训练:异构大规模数据 + 大算力(重)。
- 下游:用其权重微调,较轻。
- 时间估计:复用权重做某子任务约 2–3 周。🔶
💡 我的批注 / 判断(🤖,待人复核)¶
- 价值在"标记作为感知-动作中介"这个范式——和 ReKep/TraceVLA 连起来看,是一条不同于"端到端 VLA"的主路线,我们库里这条线还薄。
- 触觉钩子:能否把"接触点/受力点"也作为一种 mark 打进来,让模型显式 ground 到触觉——值得在升全文时验证可行性。
来源编号¶
- [1] arXiv 2502.13130 摘要(✅ 定性)。
- 🧬 关系:🤖 推断(🔶 待全文核)。