MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

[复制链接]
周大 发表于 2024-10-30 15:30:51 | 显示全部楼层 |阅读模式
浙江大学等机构推出了MMBench-Video,这是一个全面评估视频理解能力的新基准。该基准涵盖600多个长视频,涉及16个主要领域,视频时长从30秒到6分钟不等。基准测试包括26个细粒度能力评估,标注经过两次质量核验。实验结果显示,GPT-4o和Gemini-Pro-v1.5表现突出,开源图文模型在视频理解上优于视频模型。视频长度和镜头数量影响模型性能,频繁镜头切换导致理解困难。引入字幕信息显著提升模型性能,但也可能增加幻觉风险。GPT-4作为裁判模型表现出色,评分公正稳定。MMBench-Video支持在VLMEvalKit中一键评测,建立OpenVLM Video Leaderboard,为研究人员和开发者提供了强大工具。
来源:https://mp.weixin.qq.com/s/pyPfbqqbkDj45BRSBo0NsQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 19:10 , Processed in 0.284544 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表