100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
2024年12月19日,智源研究院发布了涵盖100余个大模型的综合及专项评测结果。报告指出,2024年下半年大模型更注重综合能力提升与实际应用,多模态模型迅速发展,而语言模型发展相对放缓。评测结果显示,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力方面表现优异,国产文生视频模型领先全球。尽管大模型在K12学科测验中有所进步,但仍与海淀学生平均水平存在差距,普遍存在“文强理弱”的现象。此次评测增加了面向金融量化交易场景和模型辩论的评估方式,探索了模型在实际应用中的潜力。整体来看,大模型在多个领域取得了显著进展,但仍需进一步优化以应对复杂任务。
来源:https://mp.weixin.qq.com/s/X4j8Oxr1uvy0B-jHm3W2dg

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 12:11 , Processed in 0.289751 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表