团队:人大 GeWu-Lab 胡迪(Di Hu) 组 —— 视听多模态起家、2023 起把触觉当新支线¶
📌 一句话:核心肌肉是"多模态学习机理"(尤其视听 audio-visual + 模态不平衡/融合优化);触觉与机器人操作是近两三年从多模态自然外延的新支线,不是发家本行。当"多模态触觉表征供给方"用,别当机器人系统/硬件供给方。 🔗 出本库卡片:卡片-AnyTouch(跨多传感器统一触觉表征 + TacQuad 数据集)。 ⚠️ 与 团队-人大张静组(人大另一拨,Text-to-SQL→VLA)不是一个组,勿混。 🧭 溯源方法:_方法-研究团队溯源。
PI / 血统¶
- 胡迪(Di Hu) ✅:人民大学高瓴人工智能学院准聘副教授(tenure-track)。[email protected]。
- 血统:西北工业大学 2019 博士,导师 李学龙(Xuelong Li)(起步即"视听多模态",可追到 CVPR-2016 audiovisual speech)。博后曾在百度研究院任 research scientist → 入人大。
- 荣誉:MSRA StarTrack 铸星学者(2025.04)。
学生 / 成员¶
- Ruoxuan Feng(冯若轩) —— 卡片-AnyTouch 一作,2023 级硕士,方向"多模态具身 AI(视/听/触/力)",触觉主线执行人。
- Wenke Xia(夏文柯) —— 2022 级博士,RL + 可泛化操作;AnyTouch/MS-Bot 骨干,机器人操作方向骨干。
- Yake Wei(魏亚珂) —— 2021 级博士,多模态机理(OGM-GE/综述核心),视听主线台柱。
- 外部触觉硬件合作:AnyTouch 作者含 方斌(Bin Fang) 等——传感器/硬件多为外部引入,该组自身不做硬件 🔶。
代表作 / DNA¶
- GitHub org
GeWu-Lab(~55 repo,"格物"),新论文首发地。 - OGM-GE(CVPR'22 Oral,~319★)"On-the-fly Gradient Modulation"——招牌肌肉,多模态"模态不平衡/梯度调制"奠基工作,高引。
- 视听综述 "Learning in Audio-visual Context" +
awesome-audiovisual-learning榜单(领域地图型资产);Crab(CVPR'25)、MokA(NeurIPS Oral)、Ref-AVS(ECCV'24)。 - 机器人/触觉支线:卡片-AnyTouch(ICLR'25,~91★) + AnyTouch2(ICLR'26,~52★);MS-Bot(CoRL'24 Oral,阶段引导多感官融合操作);GAP(ICLR'26,视觉-本体感受策略何时失效)。
- DNA 一句话:多模态学习机理(视听 + 融合优化)是真肌肉;触觉/机器人是 2023 起的新外延分支,偏表征/感知融合(软件算法侧),非本体硬件/整机 VLA。
当前主攻(2025–2026)¶
- 主线仍是多模态 / 视听场景理解 / MLLM 适配(CVPR26 ×4、ICLR26 ×2、NeurIPS25 ×2,多为视听/MLLM)。
- 触觉 + 机器人操作占比上升但仍次要(~1/4 量级 🔶推断),偏表征/感知融合。
与我们主线的交集¶
- 触觉(强):AnyTouch/AnyTouch2 = 本库已收录的"跨传感器统一触觉表征",该组与我们最硬的接触点。
- VLA(弱-中):无自研整机 VLA;MS-Bot / GAP 属"操作策略 + 多模态感知"层,可作 VLA 输入表征/融合参考。
- 世界模型 / 人形:基本无交集。
- 定位:把它当多模态触觉表征与传感器融合的供给方。
成色(该信 / 该疑)¶
- 该信:发表场次高(CVPR/ICLR/NeurIPS/CoRL/ECCV,多篇 Oral),非灌水;开源习惯好(代表作多有 repo;AnyTouch 连 TacQuad 多传感器对齐数据集一并放出,数据+码都给);多模态机理线有奠基影响(OGM-GE 高引)。
- 该疑:
- "视听组做触觉/机器人"的落地成色打折:重心在表征/感知融合(软件侧),触觉传感器硬件、力控、整机部署依赖外部合作(如方斌),自身不做硬件 → AnyTouch 读作"多模态表征论文",对"真机泛化/长时操作/硬件鲁棒"声称持 🟡待验证。
- 触觉支线新(2023 起)、一作为硕士生,能否沉淀为持续机器人产出待观察。
- ⚠️ Scholar 同名污染严重:认准
F7bvTOEAAAAJ(~4,561 引),别被分子生物/考古的同名 Di Hu 误导。
📡 追踪信号(怎么 follow)¶
- 主页:
gewu-lab.github.io(成员 /member/、榜单 /awesome-audiovisual-learning/)。 - GitHub org:
github.com/GeWu-Lab(最灵敏追踪点,新论文首发)。 - Google Scholar:
F7bvTOEAAAAJ(认准这个)。人大页ai.ruc.edu.cn。 - 盯点:① 触觉线是否延续(AnyTouch2 之后)、能否从"多模态一个应用场景"变成稳定机器人产出;② 冯若轩/夏文柯去向;③ 是否补上"真机/硬件"短板或仍靠外部合作。
来源¶
- GeWu-Lab 主页 / 成员页 · GitHub GeWu-Lab · AnyTouch(arXiv 2502.12191) · Scholar F7bvTOEAAAAJ(✅ 2026-07-02 多源交叉;引用数/AnyTouch2 细节标待核实)。