智源发布FlagEval「百模」评测结果，丈量模型生态变局

周大发表于 2024-12-20 15:02:03

智源研究院发布了2024年12月的大模型评测结果，涵盖100余个语言、视觉语言、文生图、文生视频及语音语言模型。评测新增数据处理、高级编程和工具调用能力评估，并首次引入金融量化交易场景和基于模型辩论的评估方式。结果显示，大模型更注重综合能力提升与实际应用，尤其在多模态领域发展迅速，而语言模型相对放缓。开源生态中出现了新的贡献者。尽管部分模型在特定任务上表现出色，如腾讯Hunyuan Image在文生图方面领先，但在复杂场景任务和辩论能力上仍有不足。K12学科测验显示模型综合得分提升，但仍不及学生平均水平。金融量化交易评测表明大模型已接近初级量化交易员水平。
来源：https://mp.weixin.qq.com/s/8Ph_P8vjSl3P1Ryvizihbg

页: [1]

靠浦ai课堂's Archiver

智源发布FlagEval「百模」评测结果，丈量模型生态变局