周大 发表于 2025-5-23 15:23:28

多模态长文本理解测评首发:46款模型无一攻克128K难关

研究者联合推出MMLongBench,一个全面评估多模态模型长文本理解能力的基准测试。该数据集包含5类任务、16个数据集和13,331个样本,支持8K至128K输入长度。通过对46个领先模型(如Gemini-2.5-Pro、GPT-4o)测试发现,OCR能力和跨模态检索成为主要瓶颈,模型在长上下文任务中仍有较大提升空间。该数据集及代码已开源。
来源:https://mp.weixin.qq.com/s/eOUvlVVMu_XPKbFa3IX_Nw
页: [1]
查看完整版本: 多模态长文本理解测评首发:46款模型无一攻克128K难关