淘宝天猫推出中文大语言模型评估基准
淘宝天猫集团的研究者提出了首个全面的中文基准——中文简短问答(Chinese SimpleQA),用于评估大语言模型回答简短问题的真实性能力。该基准具有“中文、多样性、高质量、静态、易于评估”五大特性,涵盖6个主要主题和99个子主题。研究人员对40多个大语言模型进行了评估,发现模型越大效果越好,RAG策略显著提升模型性能,而对齐训练会降低模型的真实性。o1-preview和Doubao-pro-32k在中文简短问答上表现最佳,中文社区模型在“中国文化”主题上优于GPT或o1系列模型。来源:https://mp.weixin.qq.com/s/T8OmSsR-PLkmOfhniGnfdQ
页:
[1]