跳转至

机器人知识库

Magma —— 一个模型既会"点屏幕"又会"操控机器人"的多模态智能体基础模型（微软）

Magma：同时考下"电脑操作"和"机械臂操作"两张驾照的通用智能体¶

📅 2025-02 · 🏛 Microsoft · 🏷 多模态智能体基础模型 📌 一句话省流：微软的"多模态 agent"基础模型——一个模型同时会操作软件界面(点按钮/导航)和操控机器人；靠两招把"看"接到"做"：给图里能操作的东西打标号(Set-of-Mark)、给视频里物体/手的运动轨迹打标(Trace-of-Mark)，在图像/视频/机器人数据上一起预训练。 ≈ 打比方：先在"屏幕世界"和"物理世界"都练过手的通用打工人。 🎬 演示：见论文 ⚠️ 摘要级：仅读 arXiv 摘要，🧬关系为推断(🔶)，待补全文精读。

🧰 对我们（可用性速判）¶

对我们的用处：思路借鉴——SoM/ToM 这种"用标记把感知和动作对齐"的中介表征，和 ReKep 的"关键点"、TraceVLA 的"轨迹"是同一家族；以及"数字+物理统一预训练"的视野。对我们：可想"触觉/接触点也打标"接进来。
真实性(前期)：微软 + CVPR 2025 + 代码公开，可信度高；🔶 具体数字未逐条核。
训练/微调资源：基础模型预训练（重）；下游可微调。
能借多少(开源)：✅ 代码公开。
可用性结论：思路借鉴 / 可研究复用。
📖 详读（按需）：暂无（摘要级）。

亮点（摘要级定位）¶

Set-of-Mark (SoM)：给图像里可操作对象（按钮等）打标号 → 动作 grounding。
Trace-of-Mark (ToM)：给视频里物体/手臂运动轨迹打标 → 动作规划。
异构预训练：图像 + 视频 + 机器人数据一起练。
跨域 SOTA：UI 导航 + 机器人操作均刷新 SOTA；在图像/视频任务上也与更大的多模态模型竞争。

🧬 与其他工作的关系（🔶 推断，待全文核）¶

同组主题：与卡片-TraceVLA（同为 Jianwei Yang 圈）共享"标记/轨迹作中介"的思路。
中介表征家族：与卡片-ReKep（关键点约束）异曲同工——都在"感知与动作之间"塞一层可操作的中间表征。
定位：把 VLM 扩成既能数字界面又能物理操作的 agentic 基础模型。

关键数字（每条带来源 [n]）¶

[1] 在 UI 导航 + 机器人操作任务上达到 SOTA（✅ arXiv 摘要，定性；具体数字 🟡 待全文）。

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2502.13130，CVPR 2025（已核摘要；未读全文）。
代码：✅ 公开。
证据等级：C（摘要级）→ 权重：中(偏上)；核心主张 ✅，数字 🟡，关系 🔶。

🧪 复现条件与成本（暂不亲做，只估）¶

预训练：异构大规模数据 + 大算力（重）。
下游：用其权重微调，较轻。
时间估计：复用权重做某子任务约 2–3 周。🔶

💡 我的批注 / 判断（🤖，待人复核）¶

价值在"标记作为感知-动作中介"这个范式——和 ReKep/TraceVLA 连起来看，是一条不同于"端到端 VLA"的主路线，我们库里这条线还薄。
触觉钩子：能否把"接触点/受力点"也作为一种 mark 打进来，让模型显式 ground 到触觉——值得在升全文时验证可行性。

来源编号¶

[1] arXiv 2502.13130 摘要（✅ 定性）。
🧬 关系：🤖 推断（🔶 待全文核）。