智源发布FlagEval「百模」评测结果,丈量模型生态变局

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
智源研究院发布了2024年12月的大模型评测结果,涵盖100余个语言、视觉语言、文生图、文生视频及语音语言模型。评测新增数据处理、高级编程和工具调用能力评估,并首次引入金融量化交易场景和基于模型辩论的评估方式。结果显示,大模型更注重综合能力提升与实际应用,尤其在多模态领域发展迅速,而语言模型相对放缓。开源生态中出现了新的贡献者。尽管部分模型在特定任务上表现出色,如腾讯Hunyuan Image在文生图方面领先,但在复杂场景任务和辩论能力上仍有不足。K12学科测验显示模型综合得分提升,但仍不及学生平均水平。金融量化交易评测表明大模型已接近初级量化交易员水平。
来源:https://mp.weixin.qq.com/s/8Ph_P8vjSl3P1Ryvizihbg

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 12:38 , Processed in 0.292212 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表