周大 发表于 2024-9-6 15:35:30

比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

北京通用人工智能研究院和北京大学研究人员提出了一种名为VideoAgent的新方法,该方法通过结构化记忆和大语言模型有效解决了视频理解中的内存消耗和长程关系捕捉问题。实验表明,VideoAgent在EgoSchema、WorldQA、NExT-QA等多个长视频理解数据集上表现出色,显著提升了视频理解的准确性。这一成果有望推动视频理解技术的发展。
来源:https://mp.weixin.qq.com/s/2gG9AUcTc_yutN8zZUGQKQ
页: [1]
查看完整版本: 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了