跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

[复制链接]
周大 发表于 2025-8-20 15:25:13 | 显示全部楼层 |阅读模式
北京大学王选计算机研究所团队提出了一种新型开放词汇人类-物体交互检测方法INP-CC,通过交互感知提示生成与概念校准机制,解决了传统方法难以捕捉细粒度交互信息的问题。该方法在HICO-DET和SWIG-HOI数据集上表现优异,SWIG-HOI全量测试集mAP达16.74%,相较现有方法提升近10%。INP-CC结合GPT与T5语言模型,提升语义理解与模态间关系建模,并引入困难负样本采样策略,增强对视觉相似动作的识别能力。研究推动了视觉语言模型与大语言模型的深度融合,相关代码与模型已开源,论文已被ICCV 2025接收。
来源:https://mp.weixin.qq.com/s/HUiNlSB9yLhXQM8H-uNauQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 21:01 , Processed in 0.292353 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表