多模态大模型时空智能评估新基准发布

[复制链接]
周大 发表于 2025-4-15 14:52:55 | 显示全部楼层 |阅读模式
上海交通大学联合多所高校及机构推出STI-Bench,用于评估多模态大模型(MLLM)的时空智能。基准涵盖300多个真实世界视频,涉及桌面、室内和户外场景。实验显示,即使是最强模型如Qwen2.5-VL-72B和Gemini-2.5-Pro,准确率也仅约42%,远未达到实际应用需求。研究揭示了模型在定量空间属性、时间动态理解及跨模态整合上的三大核心瓶颈。该项目已开源,为改进MLLM提供了新方向。
来源:https://mp.weixin.qq.com/s/yIRoyI1HbChLZv4GuvI7BQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 19:17 , Processed in 0.287494 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表