🔬 精读索引(全文精读 · 方法/数字/关键图/外部评价/审稿人判断)¶
所有全文精读页(区别于卡片速判)。每篇含:逐模块方法+全量数字表+关键图,较新的还带 🗣️外部评价(同行评议/社区)与 🧑⚖️审稿人视角(🤖)。 共 33 篇。从对应卡片顶部 🔬 也可进入。
🌍 世界模型¶
- 详读-Cosmos —— Cosmos(NVIDIA 面向 Physical AI 的世界基座模型平台)
- 详读-DreamerV3 —— DreamerV3(潜空间想象的通用世界模型 RL)
- 详读-GR-1 —— GR-1(大规模视频生成预训练 → 视觉机器人操作)
- 详读-GR-2 —— GR-2(网络视频预训练的生成式视频-语言-动作模型)
- 详读-Genie —— Genie(生成式可交互环境 / 基础世界模型)
- 详读-UniSim —— UniSim(Learning Interactive Real-World Simulators)
- 详读-iVideoGPT —— iVideoGPT(可交互、可扩展的自回归世界模型)
🧠 VLA / 通用策略¶
- 详读-3D-VLA —— 3D-VLA(3D 生成式世界模型)
- 详读-AdapTac —— AdapTac(力引导预测性注意力的自适应视触觉融合)
- 详读-CogACT —— CogACT("认知 + 动作"解耦的组件化 VLA)
- 详读-DiffusionPolicy —— Diffusion Policy(用动作扩散做视觉运动策略学习)
- 详读-FD-VLA —— FD-VLA(力蒸馏 VLA:推理时不用力/触觉传感器也有"力感知")
- 详读-LaWAM —— LaWAM(隐空间世界-动作模型 / Latent World Action Model)
- 详读-Octo —— Octo(开源通用机器人策略 Generalist Robot Policy)
- 详读-OmniVTA —— OmniVTA(视触觉世界模型 + 21k 轨迹对齐数据集,接触密集操作)
- 详读-OpenVLA-OFT —— OpenVLA-OFT(VLA 微调配方:同时优化速度与成功率)
- 详读-RDT-1B —— RDT-1B(双臂操作的扩散基础模型,1.2B)
- 详读-RoboCat —— RoboCat(自我改进的多本体通用操作智能体)
- 详读-RoboVLM —— RoboVLMs("造 VLA 到底什么重要"——600+ 实验消融指南)
- 详读-SpatialVLA —— SpatialVLA(空间表示增强的通用 VLA)
- 详读-TacForeSight —— TacForeSight(力引导的触觉世界模型,用于接触密集操作)
- 详读-TacVLA —— TacVLA(接触感知门控的视-语-触动作模型)
- 详读-Tactile-VLA —— Tactile-VLA(把"力"写进动作空间,解锁 VLM 的物理常识)
- 详读-VLA-Touch —— VLA-Touch(不重训 base VLA,在"规划+控制"两层外挂触觉)
- 详读-VT-WM —— VT-WM(Visuo-Tactile World Models 视觉-触觉世界模型)
- 详读-π0-FAST —— π0-FAST(FAST:VLA 的频域动作 tokenization)
🧩 触觉表征 / 地基¶
- 详读-AnyTouch —— AnyTouch(跨多视触觉传感器的统一"静态+动态"表征)
- 详读-TVL —— TVL(触觉-视觉-语言多模态对齐数据集 + 语言对齐触觉编码器)
📦 数据采集 / 数据集¶
- 详读-DROID —— DROID(Distributed Robot Interaction Dataset)
- 详读-DexTeleop-0 —— DexTeleop-0(力觉驱动的双手灵巧遥操作)
- 详读-Open-X-Embodiment —— Open X-Embodiment(22 本体汇聚的跨本体数据集 + RT-X 模型)
- 详读-UMI —— UMI(Universal Manipulation Interface)
其它¶
- 详读-T3 —— T3:Transferable Tactile Transformers(MIT CSAIL, CoRL 2024)