集成500+多模态现实任务！全新MEGA-Bench评测套件：CoT对开源模型反而有害？

周大发表于 2024-11-15 14:47:34

MEGA-Bench是一个包含500多个真实世界任务的多模态评测套件，由加拿大滑铁卢大学TIGER Lab提出。该套件支持多种输入和输出格式，旨在全面评估AI模型的能力。评测结果显示，GPT-4o与新版Claude 3.5 Sonnet表现最佳，Qwen2-VL在开源模型中领先。尽管顶级AI模型在多个任务中表现出色，但在复杂推理和跨模态理解方面仍有提升空间。思维链提示对商用模型效果显著，但对开源模型帮助有限。
来源：https://mp.weixin.qq.com/s/dgjP-DqmkrLor7dhetEA2A

		自动登录	找回密码
密码			立即注册

课程导航

集成500+多模态现实任务！全新MEGA-Bench评测套件：CoT对开源模型反而有害？