淘宝天猫推出中文大语言模型评估基准

[复制链接]
周大 发表于 2024-11-21 14:24:15 | 显示全部楼层 |阅读模式
淘宝天猫集团的研究者提出了首个全面的中文基准——中文简短问答(Chinese SimpleQA),用于评估大语言模型回答简短问题的真实性能力。该基准具有“中文、多样性、高质量、静态、易于评估”五大特性,涵盖6个主要主题和99个子主题。研究人员对40多个大语言模型进行了评估,发现模型越大效果越好,RAG策略显著提升模型性能,而对齐训练会降低模型的真实性。o1-preview和Doubao-pro-32k在中文简短问答上表现最佳,中文社区模型在“中国文化”主题上优于GPT或o1系列模型。
来源:https://mp.weixin.qq.com/s/T8OmSsR-PLkmOfhniGnfdQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-26 10:08 , Processed in 0.266954 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表