跳转至

机器人知识库

read ZR 0

type: 详读（中文全文摘要） domain: 大脑·学习方法对应卡片: 卡片-ZR-0 arxiv: "2606.30552" 来源: 全文精读(arXiv txt 正文 v2)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-07-04

详读 · ZR-0：用稠密具身思维链(ECoT)监督训跨本体 VLA（人大 + 智谱 AI，2026）¶

一、问题与核心主张¶

问题：VLA 跨本体迁移难——不同机器人的低层状态/动作空间根本不同(6 vs 7 DoF、关节位 vs 末端位姿、固定 vs 移动)，同一维度(如关节1)在不同本体物理含义都不同。已有 zero-padding/逐本体归一化只解决"格式对齐"，没解决语义对齐。
核心观察：低层本体特异，但高层认知过程(感知场景/识别物体/任务规划/子任务分解)跨本体高度共享——一个臂从桌上拿杯子的认知轨迹与 6/7 DoF 无关。这才是跨本体预训练该抓的可迁移知识。
主张：用 ECoT(具身思维链)当稠密监督信号对齐跨本体表征。

二、方法¶

双流(System 1/2)架构：System 2 = 预训练 VLM，训练时产结构化 ECoT 推理(捕捉本体无关的场景/任务理解)；System 1 = Diffusion Transformer(DiT)动作专家，据 VLM 表示经流匹配出本体特异连续动作块。两者交叉注意力耦合。
推理时完全跳过 ECoT 文本生成、零性能损失(关键设计)：用交叉注意力掩码把动作专家限制为只看 VLM 的输入 prompt 特征 → VLM 一次前向就够。保留 ECoT 的表征收益、不付其推理成本。
ProcCorpus-60M 数据：~6000 万帧(~1000 小时)、40 万+ 轨迹、跨多本体；每帧稠密 ECoT 标注(场景描述+任务进度+未来计划+原子子任务+目标 bbox+离散动作 token)，覆盖 96.8% 帧。2.6B 端到端。

三、关键结果（📄）¶

三仿真基准 + 真机全覆盖：LIBERO(单臂)、RoboTwin 2.0(双臂)、RoboCasa GR-1 Tabletop(人形)，以及 xArm 真机，各设定均表现强。
(注：RoboCasa GR-1 Tabletop 正是追踪-无界动力 MWA 宣称 75.2% 的同一基准——可作横向参照。)

四、局限（🤖 读后判断）¶

依赖稠密 ECoT 标注(ProcCorpus-60M 的标注质量是前提)——标注成本/质量是可复现性关键。
论文以仿真多基准为主，真机仅 xArm；"跨本体"收益的绝对幅度需看各基准具体数字(本轮读 intro/method 为主)。

五、开源 / 出处¶

arXiv 2606.30552 v2(2026)；中国人民大学 + 智谱 AI。代码/权重开源 github.com/RUCKBReasoning/ZR-0。

六、对我们（精读后判断，🤖）¶

"训练时 ECoT 监督、推理时跳过零损失"是个漂亮的工程点：既拿思维链的语义对齐收益、又不付推理成本——对"想要 reasoning 又要高频控制"的 VLA 是可借范式(对照卡片-ECoT/详读-ECoT 的推理时思维链，ZR-0 把它挪到训练侧)。
跨本体语义对齐与卡片-FTP-1(触觉侧跨传感器 MTTS)、卡片-GR00T-N1(跨本体人形底座)同一命题的不同解法——ZR-0 用"共享高层认知(ECoT)"对齐，FTP-1 用"功能区 token"对齐。可对照。
System1/System2 双流(慢推理+快动作)与卡片-Helix/详读-ReactiveDiffusionPolicy 的慢-快双系统同构——又一个"大脑慢/小脑快"实例。