🔬 精读索引(全文精读 · 方法/数字/关键图/外部评价/审稿人判断)¶
所有全文精读页(区别于卡片速判)。每篇含:逐模块方法+全量数字表+关键图,较新的还带 🗣️外部评价(同行评议/社区)与 🧑⚖️审稿人视角(🤖)。 共 68 篇。从对应卡片顶部 🔬 也可进入。
🌍 世界模型¶
- 详读-Cosmos —— Cosmos(NVIDIA 面向 Physical AI 的世界基座模型平台)
- 详读-DINO-WM —— DINO-WM(在预训练视觉特征上学世界模型 → 零样本规划)
- 详读-DreamerV3 —— DreamerV3(潜空间想象的通用世界模型 RL)
- 详读-GR-1 —— GR-1(大规模视频生成预训练 → 视觉机器人操作)
- 详读-GR-2 —— GR-2(网络视频预训练的生成式视频-语言-动作模型)
- 详读-Genie —— Genie(生成式可交互环境 / 基础世界模型)
- 详读-NWM —— NWM(Navigation World Models / 导航世界模型)
- 详读-UniSim —— UniSim(Learning Interactive Real-World Simulators)
- 详读-VPP —— VPP(Video Prediction Policy,视频预测策略)
- 详读-WorldVLA —— WorldVLA(自回归动作世界模型)
- 详读-iVideoGPT —— iVideoGPT(可交互、可扩展的自回归世界模型)
🧠 VLA / 通用策略¶
- 详读-3D-DiffusionPolicy —— 3D Diffusion Policy(DP3:用简洁 3D 点云表征喂扩散策略)
- 详读-3D-VLA —— 3D-VLA(3D 生成式世界模型)
- 详读-AdaFlow —— AdaFlow(方差自适应的流匹配策略)
- 详读-AdapTac —— AdapTac(力引导预测性注意力的自适应视触觉融合)
- 详读-CogACT —— CogACT("认知 + 动作"解耦的组件化 VLA)
- 详读-ConsistencyPolicy —— Consistency Policy(用一致性蒸馏给扩散策略提速一个数量级)
- 详读-DiffusionPolicy —— Diffusion Policy(用动作扩散做视觉运动策略学习)
- 详读-ECoT —— ECoT:具身思维链——让 VLA 先想再动(Berkeley,2024-07)
- 详读-EgoScale —— EgoScale(2 万小时人类第一视角,把灵巧操作做成可预测的 scaling law)
- 详读-EquivariantDiffusionPolicy —— Equivariant Diffusion Policy(把 SO(2) 等变性灌进扩散策略)
- 详读-FD-VLA —— FD-VLA(力蒸馏 VLA:推理时不用力/触觉传感器也有"力感知")
- 详读-GR00T-N1 —— GR00T N1:NVIDIA 的人形机器人开源基础模型(2025-03)
- 详读-Gemini-Robotics —— Gemini Robotics:把 Gemini 2.0 延伸到物理世界(Google DeepMind 技术报告,2025-03)
- 详读-LaWAM —— LaWAM(隐空间世界-动作模型 / Latent World Action Model)
- 详读-MolmoAct —— MolmoAct:在"空间"里推理的动作推理模型(AI2,2025-08)
- 详读-Octo —— Octo(开源通用机器人策略 Generalist Robot Policy)
- 详读-OmniVTA —— OmniVTA(视触觉世界模型 + 21k 轨迹对齐数据集,接触密集操作)
- 详读-OpenVLA —— OpenVLA:开源 7B VLA,小一个数量级却更强(CoRL 2024)
- 详读-OpenVLA-OFT —— OpenVLA-OFT(VLA 微调配方:同时优化速度与成功率)
- 详读-RDT-1B —— RDT-1B(双臂操作的扩散基础模型,1.2B)
- 详读-RT-1 —— RT-1:把"机器人控制"做成可规模化的 Transformer(Google,RSS 2023)
- 详读-RT-2 —— RT-2:把"动作当文字",直接微调网络级 VLM(Google DeepMind,CoRL 2023)
- 详读-ReKep —— ReKep:用基础模型自动写"关键点约束",免训练求解操作(Stanford 李飞飞组,2024-09)
- 详读-RoboCat —— RoboCat(自我改进的多本体通用操作智能体)
- 详读-RoboVLM —— RoboVLMs("造 VLA 到底什么重要"——600+ 实验消融指南)
- 详读-SpatialVLA —— SpatialVLA(空间表示增强的通用 VLA)
- 详读-T-Rex —— T-Rex(把触觉做成 VLA 里的高频反应专家)
- 详读-TacForeSight —— TacForeSight(力引导的触觉世界模型,用于接触密集操作)
- 详读-TacVLA —— TacVLA(接触感知门控的视-语-触动作模型)
- 详读-Tactile-VLA —— Tactile-VLA(把"力"写进动作空间,解锁 VLM 的物理常识)
- 详读-VLA-Touch —— VLA-Touch(不重训 base VLA,在"规划+控制"两层外挂触觉)
- 详读-VT-WM —— VT-WM(Visuo-Tactile World Models 视觉-触觉世界模型)
- 详读-π0 —— π0:用流匹配让 VLA 输出高频连续动作(Physical Intelligence,2024-10)
- 详读-π0-FAST —— π0-FAST(FAST:VLA 的频域动作 tokenization)
- 详读-π0.5 —— π0.5:靠"杂数据共训"让机器人在全新家里干活(Physical Intelligence,2025-04)
🎓 学习/训练方法¶
🦾 控制 / 灵巧操作¶
- 详读-DexMimicGen —— DexMimicGen(双手灵巧操作数据自动生成)
- 详读-DexPilot —— DexPilot(纯视觉遥操作灵巧手-臂系统)
- 详读-LearnToWalkInMinutes —— Learning to Walk in Minutes(数千并行环境 + 单 GPU 分钟级 RL + sim-to-real)
- 详读-ParkourInTheWild —— Parkour in the Wild(多专家蒸馏 + RL 微调 → 通用可扩展敏捷运动策略)
🧩 触觉表征 / 地基¶
- 详读-AnyTouch —— AnyTouch(跨多视触觉传感器的统一"静态+动态"表征)
- 详读-MViTac —— MViTac:自监督对比把"看"和"摸"绑一起
- 详读-Octopi —— Octopi:让 LLM"摸一摸"就推理物体物理属性(NUS,CoRL 2024)
- 详读-Sparsh —— Sparsh:通用自监督触觉表征(Meta FAIR,CoRL 2024)
- 详读-T3 —— T3:Transferable Tactile Transformers(MIT CSAIL, CoRL 2024)
- 详读-TLV —— TLV:给触觉配"整句话"的语言(触-语-视数据集 + STLV-Align)
- 详读-TVL —— TVL(触觉-视觉-语言多模态对齐数据集 + 语言对齐触觉编码器)
- 详读-Touch2Touch —— Touch2Touch:把一种触觉传感器的信号"翻译"成另一种(UMich,CoRL 2024)
- 详读-UniTouch —— UniTouch:把触觉绑定到"万物"(CVPR 2024)
📦 数据采集 / 数据集¶
- 详读-DROID —— DROID(Distributed Robot Interaction Dataset)
- 详读-DexTeleop-0 —— DexTeleop-0(力觉驱动的双手灵巧遥操作)
- 详读-Open-X-Embodiment —— Open X-Embodiment(22 本体汇聚的跨本体数据集 + RT-X 模型)
- 详读-UMI —— UMI(Universal Manipulation Interface)
其它¶
- 详读-HolisticFusion —— Holistic Fusion(HF:任务/平台无关的多模态状态估计因子图)
- 详读-ORCA-Platform —— ORCA: A Platform for Open-Source Dexterity Research
- 详读-综述-TactileRobotics —— 综述《Tactile Robotics: Past and Future》(Lepora, IJRR 2025)