新视频理解基准MLVU挑战模型极限，GPT-4o正确率仅65%

周大发表于 2024-6-21 15:46:36

为解决现有视频理解评测基准的局限性， MLVU——一个多任务长视频理解评测标准应运而生，由多所顶尖高校合作推出。这个新基准挑战性极高，即使是最先进的GPT-4o模型，其在MLVU上的单选正确率也低于65%，凸显了长视频理解的困难。MLVU通过多样化视频来源、全面任务设计和精巧的问题设置，推动了模型在理解和处理长视频上的能力评估。研究还发现，增强模型的上下文理解、图像处理和使用更强大的基础架构是未来改进的关键方向。
来源：https://mp.weixin.qq.com/s/-HUORRvhGVDdfPcKReXsCg

		自动登录	找回密码
密码			立即注册

课程导航

新视频理解基准MLVU挑战模型极限，GPT-4o正确率仅65%