ZR-0:推理"只在训练时想、部署时不想",把跨本体的高层认知对齐进大脑¶
📅 2026-06 · 🏛 人民大学 KB Reasoning(RUC) · 🏷 VLA·跨本体·具身推理 📌 一句话省流:不同机器人(单臂/双臂/人形)的"低层动作空间"各不相同,但"看场景→认物体→定计划→拆子任务"这套高层脑力活是共享的。ZR-0 在训练时用一套逐帧密集的具身思维链(ECoT)当监督信号,把这套共享认知"焊"进 VLM;推理时完全不生成思维链,靠一次 VLM 前向 + 扩散动作专家出动作,≈100ms/块,零推理开销。 ≈ 打比方:训练时逼学生"把解题步骤写全",考试时只要答案不要过程——但写过步骤的学生答案更准。 🎬 代码/权重:https://github.com/RUCKBReasoning/ZR-0
🧰 对我们(可用性速判)¶
- 对我们的用处:跨本体 VLA + 推理监督这条线最新的一篇(承接 卡片-ECoT,把它从"推理时也要生成"改成"只训练时监督、推理时丢掉")。两个可迁移点:①推理当训练期监督、推理期不跑——省掉自回归文本生成的延迟,对我们要上真机很实用;②跨本体对齐靠"embodiment-agnostic 的高层推理"(子任务用与本体无关的描述),对 projects/reflect-g1-repro 人形这条线有直接参考。触觉钩子:把"力/接触"作为 ECoT 里的一段 grounding(同 卡片-ECoT 的钩子)。
- 真实性:✅ HTML 全文精读 + 开源代码/权重 + 三仿真基准 + 真机 xArm,消融硬。数字为作者自报、发布仅数日、暂无第三方复现。
- 训练/微调资源:预训练 ProcCorpus-60M(~60M 帧/~1000h/40 万条轨迹);下游各基准从同一预训练 checkpoint 微调。2.6B 模型(Qwen3-VL-2B + 500M DiT),非小算力。
- 能借多少(开源):✅ 代码 + checkpoint 开源;ProcCorpus-60M 主要聚合公开数据集 + ECoT 标注,全量语料是否独立打包发布未明。
- 可用性结论:可微调 / 思路可复用(推理监督+跨本体对齐的范式尤其值得借)。
- 🔬 详读(按需,暂缓):本卡已覆盖方法+实验+消融+局限,未做单独详读。
亮点(全文精读后定位)¶
- 密集 ECoT 六段:场景描述 → 进度评估 → 未来计划 → 待办动作(与本体无关的原子子任务) → 目标物体(bbox 空间 grounding) → 离散动作(本体相关 token)。逐帧标,覆盖 96.8% 帧。
- 双系统架构:System2 = Qwen3-VL-2B-Instruct(出 ECoT 推理,next-token 预测,取末层隐状态特征);System1 = 500M DiT 动作专家(flow matching 出连续动作块,预训练 H=32)。
- 胜负手:cross-attention mask。动作专家只允许 attend 到 VLM 的输入 prompt 特征(指令+图像),屏蔽 ECoT token。→ ECoT 只塑造 VLM 表征,推理时不用真的把它生成出来。
- loss:L = L_ntp + α·L_fm;L_ntp 只更新 VLM,L_fm 反传到两个组件。推理走前向欧拉迭代去噪,无文本自回归开销。
🧬 与其他工作的关系¶
- 承接:卡片-ECoT(UC Berkeley,推理带像素 grounding、但推理时要生成链、慢)。ZR-0 保留"推理带 grounding",改成"训练监督、推理丢弃"。
- 对标基线:卡片-π0.5(多处直接比较)、MolmoAct、JoyAI-RA 等。
- 同源思路:双系统 System1/2 与 卡片-Helix、详读-GR00T-N1 一脉;跨本体表征与 GraspGen-X(卡片-GraspGen-X 若有)同问题域。
关键数字(每条带来源 [n])¶
- [1] LIBERO 平均 97.8%;长程 LIBERO-10 96.4%(+4.0 于 π0.5)。✅📄
- [2] RoboCasa GR-1 Tabletop 平均 69.3%,超次优 JoyAI-RA(63.2%) +6.1。✅📄
- [3] RoboTwin 2.0 Clean/Randomized 88.70%/87.98%(π0.5 为 82.74%/76.76%);抗扰动只掉 0.72 分 vs π0.5 掉 5.98。✅📄
- [4] 真机 xArm 任务进度 76.0 vs π0.5 67.8(+8.2);OCR 重的 Push Blocks 94.0 vs 66.1。✅📄
- [5] 消融:去掉 ECoT 监督(FT w/o ECoT),LIBERO 97.8→95.7(-2.1),长程 LIBERO-10 96.4→92.6(-3.8)——ECoT 对长程/推理帮助最大。✅📄
- [6] 推理 ≈100ms/动作块(H100)/ ~90ms(A6000)。✅📄
🔎 证据与可信度(源头决定权重,见 _卡片规范)¶
- 论文:arXiv 2606.30552(v1 2026-06-29 / v2 2026-07-01;✅ HTML 全文精读)。
- 代码/权重:✅ 开源 https://github.com/RUCKBReasoning/ZR-0 。
- 数据:ProcCorpus-60M 主体聚合公开集(OXE/DROID/Bridge/Fractal/RH20T)+ ECoT 标注;全量打包发布状态未明(🟡待验证)。
- 第三方评阅/复现:无(发布仅数日)。
- 证据等级:A(有源头=全文)→ 权重:中(数字自报、无第三方复现、数据规模作者自认偏小)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 基础:Qwen3-VL-2B + 500M DiT;预训练 ~1000h 机器人数据 + ECoT 逐帧标注(每帧一次 VLM 前向,标注开销大)。
- 数据:作者已给代码/权重;从公开 checkpoint 微调可绕开预训练。
- 侧证判价值:代码+权重开源 ✅ / 消融硬(ECoT 去除对比) ✅ / 真机+三仿真多设置 ✅ / 但数据规模仅为 π0 的 ~1/10(作者自认瓶颈)。
💡 我的批注 / 判断(🤖,待人复核)¶
- 最值得偷的一招:把"结构化推理"当训练期正则/表征对齐信号、推理期直接丢——鱼与熊掌(要推理的表征、又不要推理的延迟)。这比 卡片-ECoT 的"推理时也生成"在部署实用性上进了一步,值得在我们任何"想加推理但怕慢"的场景复用。
- 触觉接入点:ECoT 六段里天然缺"力/接触"这一模态。若把接触事件/力阈作为一段 embodiment-agnostic 的 grounding("此刻应接触杯壁"),可能是"触觉进高层决策"的可解释路线——和 卡片-Tactile-VLA、卡片-Octopi(若有)互补。存疑:接触信号是否也满足"训练监督、推理丢弃"仍需验证。
- 对 reflect-g1-repro 的意义:跨本体(含人形 GR-1)用同一 checkpoint 微调,且强调高层认知共享——支持"人形复现可借用非人形数据预训练"的假设。
- 别高估:数字全自报、发布仅数日;数据规模(~1000h) 显著小于 π0/LingBot/Qwen-RoboManip,欠表示技能(关柜/关抽屉、精细灵巧如挂杯)明显更弱——它证的是"表征对齐范式有效",不是"数据够了"。
🧭 研究团队溯源(判断"该信哪、该疑哪")¶
完整团队卡见 团队-人大张静组;溯源方法见 _方法-研究团队溯源。以下为速览(2026-07-02 联网核实)。
- 出处:人民大学信息学院 张静(Jing Zhang) 课题组(GitHub org
RUCKBReasoning)。不是机器人/硬件实验室,是 NLP/知识工程 + 大模型对齐 + Text-to-SQL 起家、2025 起才转具身(VLA) 的组。 - PI 张静 ✅:清华博士,师从唐杰 + 李涓子(AMiner/知识图谱脉);自述方向=知识工程 + 大模型对齐(数据合成/RL/训练-推理优化)。主页 xiaojingzi.github.io。
- 课题组 DNA ✅:高星 repo 全是 NLP/DB——OmniSQL(451★)、RESDSQL(281★)、TableLLM(251★)、CodeS(199★,SIGMOD24)、KBQA/表格推理。ZR-0 前机器人相关=0。
- 具身是真新方向(2025→) ✅:主页新开 "Embodied Intelligence(VLA/WAM/Agent)",已有 From Pixels to Tokens(VLA 隐动作监督,ICML26 Oral)、ProcVLM、Action Draft-and-Verify;ZR-0 属此线。共同作者 Youhe Feng / Yang Li 即张静名下具身博士生(作者与组交叉印证)。
- 一作 Haoyang Li 🤖(高置信)=OmniSQL/CodeS 一作:ZR-0 的核心资产 ProcCorpus-60M 逐帧密集 ECoT 标注,正是 OmniSQL 式"规模化造数据/标注"肌肉的迁移。
- 该更信(其家学):ECoT 推理监督 / ProcCorpus 数据合成管线 / "训练监督-推理丢弃"的对齐技巧——全是本组主场。
- 该保留疑(其没有的血统):真机 xArm / 灵巧操作——全组零硬件与真机部署史,实机数字比仿真更该打折(与论文自认短板 Hang Cups 弱、数据仅~1000h 一致)。
- 成色小结 🤖:非野鸡组(VLDB/SIGMOD/AAAI/ACL 高产 + ICML26 VLA Oral + 清华血统);是强 LLM/推理组带"造数据+推理监督"优势跨界打 VLA——方法学可信、硬件落地待观察。
来源编号¶
- [1]–[6] arXiv 2606.30552 全文(✅ HTML 精读,Experiments/Ablation/Discussion 各表)。
- [团队] GitHub RUCKBReasoning · 张静主页 xiaojingzi.github.io · OmniSQL(VLDB25) · CodeS(SIGMOD24)(✅ 2026-07-02 联网核实)。