100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

周大发表于 2024-12-20 15:03:01

2024年12月19日，智源研究院发布了涵盖100余个大模型的综合及专项评测结果。报告指出，2024年下半年大模型更注重综合能力提升与实际应用，多模态模型迅速发展，而语言模型发展相对放缓。评测结果显示，字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力方面表现优异，国产文生视频模型领先全球。尽管大模型在K12学科测验中有所进步，但仍与海淀学生平均水平存在差距，普遍存在“文强理弱”的现象。此次评测增加了面向金融量化交易场景和模型辩论的评估方式，探索了模型在实际应用中的潜力。整体来看，大模型在多个领域取得了显著进展，但仍需进一步优化以应对复杂任务。
来源：https://mp.weixin.qq.com/s/X4j8Oxr1uvy0B-jHm3W2dg

页: [1]

靠浦ai课堂's Archiver

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态