周大 发表于 2024-12-20 15:03:01

100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态

2024年12月19日,智源研究院发布了涵盖100余个大模型的综合及专项评测结果。报告指出,2024年下半年大模型更注重综合能力提升与实际应用,多模态模型迅速发展,而语言模型发展相对放缓。评测结果显示,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力方面表现优异,国产文生视频模型领先全球。尽管大模型在K12学科测验中有所进步,但仍与海淀学生平均水平存在差距,普遍存在“文强理弱”的现象。此次评测增加了面向金融量化交易场景和模型辩论的评估方式,探索了模型在实际应用中的潜力。整体来看,大模型在多个领域取得了显著进展,但仍需进一步优化以应对复杂任务。
来源:https://mp.weixin.qq.com/s/X4j8Oxr1uvy0B-jHm3W2dg
页: [1]
查看完整版本: 100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态