新视频理解基准MLVU挑战模型极限,GPT-4o正确率仅65%

[复制链接]
周大 发表于 2024-6-21 15:46:36 | 显示全部楼层 |阅读模式
为解决现有视频理解评测基准的局限性, MLVU——一个多任务长视频理解评测标准应运而生,由多所顶尖高校合作推出。这个新基准挑战性极高,即使是最先进的GPT-4o模型,其在MLVU上的单选正确率也低于65%,凸显了长视频理解的困难。MLVU通过多样化视频来源、全面任务设计和精巧的问题设置,推动了模型在理解和处理长视频上的能力评估。研究还发现,增强模型的上下文理解、图像处理和使用更强大的基础架构是未来改进的关键方向。
来源:https://mp.weixin.qq.com/s/-HUORRvhGVDdfPcKReXsCg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 14:43 , Processed in 0.269421 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表