让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法

[复制链接]
周大 发表于 2024-8-30 14:11:05 | 显示全部楼层 |阅读模式
中国人民大学等机构的研究人员提出了一种新的多模态视听场景下的指代分割方法Ref-AVS。该方法整合了文本、音频和视觉模态,适用于更真实的动态场景。研究人员构建了包含40020个视频帧的Ref-AVS Bench数据集,并进行了定量和定性实验。Ref-AVS在多个子集上表现出色,特别是在未见子集和空指代子集上展示出良好的泛化能力。该研究已入选顶会ECCV2024。
来源:https://mp.weixin.qq.com/s/0XdvmJQkkNxAwO_P9gOWgg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 16:36 , Processed in 0.301994 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表