比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

[复制链接]
周大 发表于 2024-9-6 15:35:30 | 显示全部楼层 |阅读模式
北京通用人工智能研究院和北京大学研究人员提出了一种名为VideoAgent的新方法,该方法通过结构化记忆和大语言模型有效解决了视频理解中的内存消耗和长程关系捕捉问题。实验表明,VideoAgent在EgoSchema、WorldQA、NExT-QA等多个长视频理解数据集上表现出色,显著提升了视频理解的准确性。这一成果有望推动视频理解技术的发展。
来源:https://mp.weixin.qq.com/s/2gG9AUcTc_yutN8zZUGQKQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 15:56 , Processed in 0.282255 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表