审稿人判断）¶

所有全文精读页(区别于卡片速判)。每篇含:逐模块方法+全量数字表+关键图,较新的还带 🗣️外部评价(同行评议/社区)与 🧑‍⚖️审稿人视角(🤖)。共 33 篇。从对应卡片顶部 🔬 也可进入。

🌍 世界模型¶

详读-Cosmos —— Cosmos（NVIDIA 面向 Physical AI 的世界基座模型平台）
详读-DreamerV3 —— DreamerV3（潜空间想象的通用世界模型 RL）
详读-GR-1 —— GR-1（大规模视频生成预训练 → 视觉机器人操作）
详读-GR-2 —— GR-2（网络视频预训练的生成式视频-语言-动作模型）
详读-Genie —— Genie（生成式可交互环境 / 基础世界模型）
详读-UniSim —— UniSim（Learning Interactive Real-World Simulators）
详读-iVideoGPT —— iVideoGPT（可交互、可扩展的自回归世界模型）

🧠 VLA / 通用策略¶

详读-3D-VLA —— 3D-VLA（3D 生成式世界模型）
详读-AdapTac —— AdapTac（力引导预测性注意力的自适应视触觉融合）
详读-CogACT —— CogACT（"认知 + 动作"解耦的组件化 VLA）
详读-DiffusionPolicy —— Diffusion Policy（用动作扩散做视觉运动策略学习）
详读-FD-VLA —— FD-VLA（力蒸馏 VLA：推理时不用力/触觉传感器也有"力感知"）
详读-LaWAM —— LaWAM（隐空间世界-动作模型 / Latent World Action Model）
详读-Octo —— Octo（开源通用机器人策略 Generalist Robot Policy）
详读-OmniVTA —— OmniVTA（视触觉世界模型 + 21k 轨迹对齐数据集，接触密集操作）
详读-OpenVLA-OFT —— OpenVLA-OFT（VLA 微调配方：同时优化速度与成功率）
详读-RDT-1B —— RDT-1B（双臂操作的扩散基础模型，1.2B）
详读-RoboCat —— RoboCat（自我改进的多本体通用操作智能体）
详读-RoboVLM —— RoboVLMs（"造 VLA 到底什么重要"——600+ 实验消融指南）
详读-SpatialVLA —— SpatialVLA（空间表示增强的通用 VLA）
详读-TacForeSight —— TacForeSight（力引导的触觉世界模型，用于接触密集操作）
详读-TacVLA —— TacVLA（接触感知门控的视-语-触动作模型）
详读-Tactile-VLA —— Tactile-VLA（把"力"写进动作空间，解锁 VLM 的物理常识）
详读-VLA-Touch —— VLA-Touch（不重训 base VLA，在"规划+控制"两层外挂触觉）
详读-VT-WM —— VT-WM（Visuo-Tactile World Models 视觉-触觉世界模型）
详读-π0-FAST —— π0-FAST（FAST：VLA 的频域动作 tokenization）

🧩 触觉表征 / 地基¶

详读-AnyTouch —— AnyTouch（跨多视触觉传感器的统一"静态+动态"表征）
详读-TVL —— TVL（触觉-视觉-语言多模态对齐数据集 + 语言对齐触觉编码器）

📦 数据采集 / 数据集¶

详读-DROID —— DROID（Distributed Robot Interaction Dataset）
详读-DexTeleop-0 —— DexTeleop-0（力觉驱动的双手灵巧遥操作）
详读-Open-X-Embodiment —— Open X-Embodiment（22 本体汇聚的跨本体数据集 + RT-X 模型）
详读-UMI —— UMI（Universal Manipulation Interface）

其它¶

详读-T3 —— T3：Transferable Tactile Transformers（MIT CSAIL, CoRL 2024）