多模态长文本理解测评首发：46款模型无一攻克128K难关

周大发表于 2025-5-23 15:23:28

研究者联合推出MMLongBench，一个全面评估多模态模型长文本理解能力的基准测试。该数据集包含5类任务、16个数据集和13,331个样本，支持8K至128K输入长度。通过对46个领先模型（如Gemini-2.5-Pro、GPT-4o）测试发现，OCR能力和跨模态检索成为主要瓶颈，模型在长上下文任务中仍有较大提升空间。该数据集及代码已开源。
来源：https://mp.weixin.qq.com/s/eOUvlVVMu_XPKbFa3IX_Nw

页: [1]

靠浦ai课堂's Archiver

多模态长文本理解测评首发：46款模型无一攻克128K难关