跳转至

Magma:同时考下"电脑操作"和"机械臂操作"两张驾照的通用智能体

📅 2025-02 · 🏛 Microsoft · 🏷 多模态智能体基础模型 📌 一句话省流:微软的"多模态 agent"基础模型——一个模型同时会操作软件界面(点按钮/导航)和操控机器人;靠两招把"看"接到"做":给图里能操作的东西打标号(Set-of-Mark)、给视频里物体/手的运动轨迹打标(Trace-of-Mark),在图像/视频/机器人数据上一起预训练。 ≈ 打比方:先在"屏幕世界"和"物理世界"都练过手的通用打工人。 🎬 演示:见论文 ⚠️ 摘要级:仅读 arXiv 摘要,🧬关系为推断(🔶),待补全文精读

🧰 对我们(可用性速判)

  • 对我们的用处思路借鉴——SoM/ToM 这种"用标记把感知和动作对齐"的中介表征,和 ReKep 的"关键点"、TraceVLA 的"轨迹"是同一家族;以及"数字+物理统一预训练"的视野。对我们:可想"触觉/接触点也打标"接进来。
  • 真实性(前期):微软 + CVPR 2025 + 代码公开,可信度高;🔶 具体数字未逐条核。
  • 训练/微调资源:基础模型预训练(重);下游可微调。
  • 能借多少(开源):✅ 代码公开。
  • 可用性结论思路借鉴 / 可研究复用
  • 📖 详读(按需):暂无(摘要级)。

亮点(摘要级定位)

  • Set-of-Mark (SoM):给图像里可操作对象(按钮等)打标号 → 动作 grounding。
  • Trace-of-Mark (ToM):给视频里物体/手臂运动轨迹打标 → 动作规划。
  • 异构预训练:图像 + 视频 + 机器人数据一起练。
  • 跨域 SOTA:UI 导航 + 机器人操作均刷新 SOTA;在图像/视频任务上也与更大的多模态模型竞争。

🧬 与其他工作的关系(🔶 推断,待全文核)

  • 同组主题:与 卡片-TraceVLA(同为 Jianwei Yang 圈)共享"标记/轨迹作中介"的思路。
  • 中介表征家族:与 卡片-ReKep(关键点约束)异曲同工——都在"感知与动作之间"塞一层可操作的中间表征。
  • 定位:把 VLM 扩成既能数字界面又能物理操作的 agentic 基础模型。

关键数字(每条带来源 [n])

  • [1] 在 UI 导航 + 机器人操作任务上达到 SOTA(✅ arXiv 摘要,定性;具体数字 🟡 待全文)。

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2502.13130,CVPR 2025(已核摘要;未读全文)。
  • 代码:✅ 公开。
  • 证据等级:C(摘要级)→ 权重:中(偏上);核心主张 ✅,数字 🟡,关系 🔶。

🧪 复现条件与成本(暂不亲做,只估)

  • 预训练:异构大规模数据 + 大算力(重)。
  • 下游:用其权重微调,较轻。
  • 时间估计:复用权重做某子任务约 2–3 周。🔶

💡 我的批注 / 判断(🤖,待人复核)

  • 价值在"标记作为感知-动作中介"这个范式——和 ReKep/TraceVLA 连起来看,是一条不同于"端到端 VLA"的主路线,我们库里这条线还薄。
  • 触觉钩子:能否把"接触点/受力点"也作为一种 mark 打进来,让模型显式 ground 到触觉——值得在升全文时验证可行性。

来源编号

  • [1] arXiv 2502.13130 摘要(✅ 定性)。
  • 🧬 关系:🤖 推断(🔶 待全文核)。