周大 发表于 2025-8-20 15:25:13

跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

北京大学王选计算机研究所团队提出了一种新型开放词汇人类-物体交互检测方法INP-CC,通过交互感知提示生成与概念校准机制,解决了传统方法难以捕捉细粒度交互信息的问题。该方法在HICO-DET和SWIG-HOI数据集上表现优异,SWIG-HOI全量测试集mAP达16.74%,相较现有方法提升近10%。INP-CC结合GPT与T5语言模型,提升语义理解与模态间关系建模,并引入困难负样本采样策略,增强对视觉相似动作的识别能力。研究推动了视觉语言模型与大语言模型的深度融合,相关代码与模型已开源,论文已被ICCV 2025接收。
来源:https://mp.weixin.qq.com/s/HUiNlSB9yLhXQM8H-uNauQ
页: [1]
查看完整版本: 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测