智源发布FlagEval「百模」评测结果,丈量模型生态变局
智源研究院发布了2024年12月的大模型评测结果,涵盖100余个语言、视觉语言、文生图、文生视频及语音语言模型。评测新增数据处理、高级编程和工具调用能力评估,并首次引入金融量化交易场景和基于模型辩论的评估方式。结果显示,大模型更注重综合能力提升与实际应用,尤其在多模态领域发展迅速,而语言模型相对放缓。开源生态中出现了新的贡献者。尽管部分模型在特定任务上表现出色,如腾讯Hunyuan Image在文生图方面领先,但在复杂场景任务和辩论能力上仍有不足。K12学科测验显示模型综合得分提升,但仍不及学生平均水平。金融量化交易评测表明大模型已接近初级量化交易员水平。来源:https://mp.weixin.qq.com/s/8Ph_P8vjSl3P1Ryvizihbg
页:
[1]