新视频理解基准MLVU挑战模型极限,GPT-4o正确率仅65%
为解决现有视频理解评测基准的局限性, MLVU——一个多任务长视频理解评测标准应运而生,由多所顶尖高校合作推出。这个新基准挑战性极高,即使是最先进的GPT-4o模型,其在MLVU上的单选正确率也低于65%,凸显了长视频理解的困难。MLVU通过多样化视频来源、全面任务设计和精巧的问题设置,推动了模型在理解和处理长视频上的能力评估。研究还发现,增强模型的上下文理解、图像处理和使用更强大的基础架构是未来改进的关键方向。来源:https://mp.weixin.qq.com/s/-HUORRvhGVDdfPcKReXsCg
页:
[1]