审稿人判断）¶

所有全文精读页(区别于卡片速判)。每篇含:逐模块方法+全量数字表+关键图,较新的还带 🗣️外部评价(同行评议/社区)与 🧑‍⚖️审稿人视角(🤖)。共 68 篇。从对应卡片顶部 🔬 也可进入。

🌍 世界模型¶

详读-Cosmos —— Cosmos（NVIDIA 面向 Physical AI 的世界基座模型平台）
详读-DINO-WM —— DINO-WM（在预训练视觉特征上学世界模型 → 零样本规划）
详读-DreamerV3 —— DreamerV3（潜空间想象的通用世界模型 RL）
详读-GR-1 —— GR-1（大规模视频生成预训练 → 视觉机器人操作）
详读-GR-2 —— GR-2（网络视频预训练的生成式视频-语言-动作模型）
详读-Genie —— Genie（生成式可交互环境 / 基础世界模型）
详读-NWM —— NWM（Navigation World Models / 导航世界模型）
详读-UniSim —— UniSim（Learning Interactive Real-World Simulators）
详读-VPP —— VPP（Video Prediction Policy，视频预测策略）
详读-WorldVLA —— WorldVLA（自回归动作世界模型）
详读-iVideoGPT —— iVideoGPT（可交互、可扩展的自回归世界模型）

🧠 VLA / 通用策略¶

详读-3D-DiffusionPolicy —— 3D Diffusion Policy（DP3：用简洁 3D 点云表征喂扩散策略）
详读-3D-VLA —— 3D-VLA（3D 生成式世界模型）
详读-AdaFlow —— AdaFlow（方差自适应的流匹配策略）
详读-AdapTac —— AdapTac（力引导预测性注意力的自适应视触觉融合）
详读-CogACT —— CogACT（"认知 + 动作"解耦的组件化 VLA）
详读-ConsistencyPolicy —— Consistency Policy（用一致性蒸馏给扩散策略提速一个数量级）
详读-DiffusionPolicy —— Diffusion Policy（用动作扩散做视觉运动策略学习）
详读-ECoT —— ECoT：具身思维链——让 VLA 先想再动（Berkeley，2024-07）
详读-EgoScale —— EgoScale（2 万小时人类第一视角，把灵巧操作做成可预测的 scaling law）
详读-EquivariantDiffusionPolicy —— Equivariant Diffusion Policy（把 SO(2) 等变性灌进扩散策略）
详读-FD-VLA —— FD-VLA（力蒸馏 VLA：推理时不用力/触觉传感器也有"力感知"）
详读-GR00T-N1 —— GR00T N1：NVIDIA 的人形机器人开源基础模型（2025-03）
详读-Gemini-Robotics —— Gemini Robotics：把 Gemini 2.0 延伸到物理世界（Google DeepMind 技术报告，2025-03）
详读-LaWAM —— LaWAM（隐空间世界-动作模型 / Latent World Action Model）
详读-MolmoAct —— MolmoAct：在"空间"里推理的动作推理模型（AI2，2025-08）
详读-Octo —— Octo（开源通用机器人策略 Generalist Robot Policy）
详读-OmniVTA —— OmniVTA（视触觉世界模型 + 21k 轨迹对齐数据集，接触密集操作）
详读-OpenVLA —— OpenVLA：开源 7B VLA，小一个数量级却更强（CoRL 2024）
详读-OpenVLA-OFT —— OpenVLA-OFT（VLA 微调配方：同时优化速度与成功率）
详读-RDT-1B —— RDT-1B（双臂操作的扩散基础模型，1.2B）
详读-RT-1 —— RT-1：把"机器人控制"做成可规模化的 Transformer（Google，RSS 2023）
详读-RT-2 —— RT-2：把"动作当文字"，直接微调网络级 VLM（Google DeepMind，CoRL 2023）
详读-ReKep —— ReKep：用基础模型自动写"关键点约束"，免训练求解操作（Stanford 李飞飞组，2024-09）
详读-RoboCat —— RoboCat（自我改进的多本体通用操作智能体）
详读-RoboVLM —— RoboVLMs（"造 VLA 到底什么重要"——600+ 实验消融指南）
详读-SpatialVLA —— SpatialVLA（空间表示增强的通用 VLA）
详读-T-Rex —— T-Rex（把触觉做成 VLA 里的高频反应专家）
详读-TacForeSight —— TacForeSight（力引导的触觉世界模型，用于接触密集操作）
详读-TacVLA —— TacVLA（接触感知门控的视-语-触动作模型）
详读-Tactile-VLA —— Tactile-VLA（把"力"写进动作空间，解锁 VLM 的物理常识）
详读-VLA-Touch —— VLA-Touch（不重训 base VLA，在"规划+控制"两层外挂触觉）
详读-VT-WM —— VT-WM（Visuo-Tactile World Models 视觉-触觉世界模型）
详读-π0 —— π0：用流匹配让 VLA 输出高频连续动作（Physical Intelligence，2024-10）
详读-π0-FAST —— π0-FAST（FAST：VLA 的频域动作 tokenization）
详读-π0.5 —— π0.5：靠"杂数据共训"让机器人在全新家里干活（Physical Intelligence，2025-04）

🎓 学习/训练方法¶

详读-HPT —— HPT：共享主干跨本体预训练（MIT/Meta 何恺明组，NeurIPS 2024）
详读-LAPA —— LAPA：从"无动作标签的视频"预训练 VLA（2024-10）

🦾 控制 / 灵巧操作¶

详读-DexMimicGen —— DexMimicGen（双手灵巧操作数据自动生成）
详读-DexPilot —— DexPilot（纯视觉遥操作灵巧手-臂系统）
详读-LearnToWalkInMinutes —— Learning to Walk in Minutes（数千并行环境 + 单 GPU 分钟级 RL + sim-to-real）
详读-ParkourInTheWild —— Parkour in the Wild（多专家蒸馏 + RL 微调 → 通用可扩展敏捷运动策略）

🧩 触觉表征 / 地基¶

详读-AnyTouch —— AnyTouch（跨多视触觉传感器的统一"静态+动态"表征）
详读-MViTac —— MViTac：自监督对比把"看"和"摸"绑一起
详读-Octopi —— Octopi：让 LLM"摸一摸"就推理物体物理属性（NUS，CoRL 2024）
详读-Sparsh —— Sparsh：通用自监督触觉表征（Meta FAIR，CoRL 2024）
详读-T3 —— T3：Transferable Tactile Transformers（MIT CSAIL, CoRL 2024）
详读-TLV —— TLV：给触觉配"整句话"的语言（触-语-视数据集 + STLV-Align）
详读-TVL —— TVL（触觉-视觉-语言多模态对齐数据集 + 语言对齐触觉编码器）
详读-Touch2Touch —— Touch2Touch：把一种触觉传感器的信号"翻译"成另一种（UMich，CoRL 2024）
详读-UniTouch —— UniTouch：把触觉绑定到"万物"（CVPR 2024）

📦 数据采集 / 数据集¶

详读-DROID —— DROID（Distributed Robot Interaction Dataset）
详读-DexTeleop-0 —— DexTeleop-0（力觉驱动的双手灵巧遥操作）
详读-Open-X-Embodiment —— Open X-Embodiment（22 本体汇聚的跨本体数据集 + RT-X 模型）
详读-UMI —— UMI（Universal Manipulation Interface）

其它¶

详读-HolisticFusion —— Holistic Fusion（HF：任务/平台无关的多模态状态估计因子图）
详读-ORCA-Platform —— ORCA: A Platform for Open-Source Dexterity Research
详读-综述-TactileRobotics —— 综述《Tactile Robotics: Past and Future》(Lepora, IJRR 2025)