周大 发表于 2024-8-30 14:11:05

让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法

中国人民大学等机构的研究人员提出了一种新的多模态视听场景下的指代分割方法Ref-AVS。该方法整合了文本、音频和视觉模态,适用于更真实的动态场景。研究人员构建了包含40020个视频帧的Ref-AVS Bench数据集,并进行了定量和定性实验。Ref-AVS在多个子集上表现出色,特别是在未见子集和空指代子集上展示出良好的泛化能力。该研究已入选顶会ECCV2024。
来源:https://mp.weixin.qq.com/s/0XdvmJQkkNxAwO_P9gOWgg
页: [1]
查看完整版本: 让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法