ZR-0：推理"只在训练时想、部署时不想"，把跨本体的高层认知对齐进大脑¶

📅 2026-06 · 🏛 人民大学 KB Reasoning(RUC) · 🏷 VLA·跨本体·具身推理 📌 一句话省流：不同机器人（单臂/双臂/人形）的"低层动作空间"各不相同，但"看场景→认物体→定计划→拆子任务"这套高层脑力活是共享的。ZR-0 在训练时用一套逐帧密集的具身思维链(ECoT)当监督信号，把这套共享认知"焊"进 VLM；推理时完全不生成思维链，靠一次 VLM 前向 + 扩散动作专家出动作，≈100ms/块，零推理开销。 ≈ 打比方：训练时逼学生"把解题步骤写全"，考试时只要答案不要过程——但写过步骤的学生答案更准。 🎬 代码/权重：https://github.com/RUCKBReasoning/ZR-0

🧰 对我们（可用性速判）¶

对我们的用处：跨本体 VLA + 推理监督这条线最新的一篇（承接卡片-ECoT，把它从"推理时也要生成"改成"只训练时监督、推理时丢掉"）。两个可迁移点：①推理当训练期监督、推理期不跑——省掉自回归文本生成的延迟，对我们要上真机很实用；②跨本体对齐靠"embodiment-agnostic 的高层推理"（子任务用与本体无关的描述），对 projects/reflect-g1-repro 人形这条线有直接参考。触觉钩子：把"力/接触"作为 ECoT 里的一段 grounding（同卡片-ECoT 的钩子）。
真实性：✅ HTML 全文精读 + 开源代码/权重 + 三仿真基准 + 真机 xArm，消融硬。数字为作者自报、发布仅数日、暂无第三方复现。
训练/微调资源：预训练 ProcCorpus-60M(~60M 帧/~1000h/40 万条轨迹)；下游各基准从同一预训练 checkpoint 微调。2.6B 模型（Qwen3-VL-2B + 500M DiT），非小算力。
能借多少(开源)：✅ 代码 + checkpoint 开源；ProcCorpus-60M 主要聚合公开数据集 + ECoT 标注，全量语料是否独立打包发布未明。
可用性结论：可微调 / 思路可复用（推理监督+跨本体对齐的范式尤其值得借）。
🔬 详读（按需，暂缓）：本卡已覆盖方法+实验+消融+局限，未做单独详读。

亮点（全文精读后定位）¶

密集 ECoT 六段：场景描述 → 进度评估 → 未来计划 → 待办动作(与本体无关的原子子任务) → 目标物体(bbox 空间 grounding) → 离散动作(本体相关 token)。逐帧标，覆盖 96.8% 帧。
双系统架构：System2 = Qwen3-VL-2B-Instruct（出 ECoT 推理，next-token 预测，取末层隐状态特征）；System1 = 500M DiT 动作专家（flow matching 出连续动作块，预训练 H=32）。
胜负手：cross-attention mask。动作专家只允许 attend 到 VLM 的输入 prompt 特征(指令+图像)，屏蔽 ECoT token。→ ECoT 只塑造 VLM 表征，推理时不用真的把它生成出来。
loss：L = L_ntp + α·L_fm；L_ntp 只更新 VLM，L_fm 反传到两个组件。推理走前向欧拉迭代去噪，无文本自回归开销。

🧬 与其他工作的关系¶

承接：卡片-ECoT（UC Berkeley，推理带像素 grounding、但推理时要生成链、慢）。ZR-0 保留"推理带 grounding"，改成"训练监督、推理丢弃"。
对标基线：卡片-π0.5（多处直接比较）、MolmoAct、JoyAI-RA 等。
同源思路：双系统 System1/2 与卡片-Helix、详读-GR00T-N1 一脉；跨本体表征与 GraspGen-X（卡片-GraspGen-X 若有）同问题域。

关键数字（每条带来源 [n]）¶

[1] LIBERO 平均 97.8%；长程 LIBERO-10 96.4%（+4.0 于 π0.5）。✅📄
[2] RoboCasa GR-1 Tabletop 平均 69.3%，超次优 JoyAI-RA(63.2%) +6.1。✅📄
[3] RoboTwin 2.0 Clean/Randomized 88.70%/87.98%（π0.5 为 82.74%/76.76%）；抗扰动只掉 0.72 分 vs π0.5 掉 5.98。✅📄
[4] 真机 xArm 任务进度 76.0 vs π0.5 67.8（+8.2）；OCR 重的 Push Blocks 94.0 vs 66.1。✅📄
[5] 消融：去掉 ECoT 监督(FT w/o ECoT)，LIBERO 97.8→95.7(-2.1)，长程 LIBERO-10 96.4→92.6(-3.8)——ECoT 对长程/推理帮助最大。✅📄
[6] 推理 ≈100ms/动作块（H100）/ ~90ms（A6000）。✅📄

🔎 证据与可信度（源头决定权重，见 _卡片规范）¶

论文：arXiv 2606.30552（v1 2026-06-29 / v2 2026-07-01；✅ HTML 全文精读）。
代码/权重：✅ 开源 https://github.com/RUCKBReasoning/ZR-0 。
数据：ProcCorpus-60M 主体聚合公开集(OXE/DROID/Bridge/Fractal/RH20T)+ ECoT 标注；全量打包发布状态未明（🟡待验证）。
第三方评阅/复现：无（发布仅数日）。
证据等级：A（有源头=全文）→ 权重：中（数字自报、无第三方复现、数据规模作者自认偏小）。

🧪 复现条件与成本（暂不亲做，只估）¶

基础：Qwen3-VL-2B + 500M DiT；预训练 ~1000h 机器人数据 + ECoT 逐帧标注（每帧一次 VLM 前向，标注开销大）。
数据：作者已给代码/权重；从公开 checkpoint 微调可绕开预训练。
侧证判价值：代码+权重开源 ✅ / 消融硬(ECoT 去除对比) ✅ / 真机+三仿真多设置 ✅ / 但数据规模仅为 π0 的 ~1/10（作者自认瓶颈）。

💡 我的批注 / 判断（🤖，待人复核）¶

最值得偷的一招：把"结构化推理"当训练期正则/表征对齐信号、推理期直接丢——鱼与熊掌（要推理的表征、又不要推理的延迟）。这比卡片-ECoT 的"推理时也生成"在部署实用性上进了一步，值得在我们任何"想加推理但怕慢"的场景复用。
触觉接入点：ECoT 六段里天然缺"力/接触"这一模态。若把接触事件/力阈作为一段 embodiment-agnostic 的 grounding（"此刻应接触杯壁"），可能是"触觉进高层决策"的可解释路线——和卡片-Tactile-VLA、卡片-Octopi（若有）互补。存疑：接触信号是否也满足"训练监督、推理丢弃"仍需验证。
对 reflect-g1-repro 的意义：跨本体（含人形 GR-1）用同一 checkpoint 微调，且强调高层认知共享——支持"人形复现可借用非人形数据预训练"的假设。
别高估：数字全自报、发布仅数日；数据规模(~1000h) 显著小于 π0/LingBot/Qwen-RoboManip，欠表示技能(关柜/关抽屉、精细灵巧如挂杯)明显更弱——它证的是"表征对齐范式有效"，不是"数据够了"。

🧭 研究团队溯源（判断"该信哪、该疑哪"）¶

完整团队卡见团队-人大张静组；溯源方法见 _方法-研究团队溯源。以下为速览（2026-07-02 联网核实）。

出处：人民大学信息学院 张静(Jing Zhang) 课题组（GitHub org RUCKBReasoning）。不是机器人/硬件实验室，是 NLP/知识工程 + 大模型对齐 + Text-to-SQL 起家、2025 起才转具身(VLA) 的组。
PI 张静 ✅：清华博士，师从唐杰 + 李涓子（AMiner/知识图谱脉）；自述方向=知识工程 + 大模型对齐（数据合成/RL/训练-推理优化）。主页 xiaojingzi.github.io。
课题组 DNA ✅：高星 repo 全是 NLP/DB——OmniSQL(451★)、RESDSQL(281★)、TableLLM(251★)、CodeS(199★,SIGMOD24)、KBQA/表格推理。ZR-0 前机器人相关=0。
具身是真新方向(2025→) ✅：主页新开 "Embodied Intelligence(VLA/WAM/Agent)"，已有 From Pixels to Tokens(VLA 隐动作监督，ICML26 Oral)、ProcVLM、Action Draft-and-Verify；ZR-0 属此线。共同作者 Youhe Feng / Yang Li 即张静名下具身博士生（作者与组交叉印证）。
一作 Haoyang Li 🤖(高置信)=OmniSQL/CodeS 一作：ZR-0 的核心资产 ProcCorpus-60M 逐帧密集 ECoT 标注，正是 OmniSQL 式"规模化造数据/标注"肌肉的迁移。
该更信（其家学）：ECoT 推理监督 / ProcCorpus 数据合成管线 / "训练监督-推理丢弃"的对齐技巧——全是本组主场。
该保留疑（其没有的血统）：真机 xArm / 灵巧操作——全组零硬件与真机部署史，实机数字比仿真更该打折（与论文自认短板 Hang Cups 弱、数据仅~1000h 一致）。
成色小结 🤖：非野鸡组（VLDB/SIGMOD/AAAI/ACL 高产 + ICML26 VLA Oral + 清华血统）；是强 LLM/推理组带"造数据+推理监督"优势跨界打 VLA——方法学可信、硬件落地待观察。

来源编号¶

[1]–[6] arXiv 2606.30552 全文（✅ HTML 精读，Experiments/Ablation/Discussion 各表）。
[团队] GitHub RUCKBReasoning · 张静主页 xiaojingzi.github.io · OmniSQL(VLDB25) · CodeS(SIGMOD24)（✅ 2026-07-02 联网核实）。