周大 发表于 2024-6-21 15:46:36

新视频理解基准MLVU挑战模型极限,GPT-4o正确率仅65%

为解决现有视频理解评测基准的局限性, MLVU——一个多任务长视频理解评测标准应运而生,由多所顶尖高校合作推出。这个新基准挑战性极高,即使是最先进的GPT-4o模型,其在MLVU上的单选正确率也低于65%,凸显了长视频理解的困难。MLVU通过多样化视频来源、全面任务设计和精巧的问题设置,推动了模型在理解和处理长视频上的能力评估。研究还发现,增强模型的上下文理解、图像处理和使用更强大的基础架构是未来改进的关键方向。
来源:https://mp.weixin.qq.com/s/-HUORRvhGVDdfPcKReXsCg
页: [1]
查看完整版本: 新视频理解基准MLVU挑战模型极限,GPT-4o正确率仅65%