周大 发表于 2025-2-18 14:24:52

ZeroBench:AI视觉理解的新挑战

ZeroBench 是一个全新的高难度视觉基准,包含 100 个复杂问题,涵盖多步骤推理和困难视觉元素。20 多个知名大模型在首次测试中全部得零分,即便经过优化后,表现最好的模型也仅能正确回答少数问题。该基准通过 20 多位专家精心设计,经过多次筛选和调整,确保了其挑战性。结果显示,当前 LMM 在面对复杂任务时仍有较大提升空间,尤其在多模态理解和推理能力方面。
来源:https://mp.weixin.qq.com/s/XB2UrbU8l4_O8BGWNTxyHg
页: [1]
查看完整版本: ZeroBench:AI视觉理解的新挑战