淘宝天猫推出中文大语言模型评估基准

周大发表于 2024-11-21 14:24:15

淘宝天猫集团的研究者提出了首个全面的中文基准——中文简短问答（Chinese SimpleQA），用于评估大语言模型回答简短问题的真实性能力。该基准具有“中文、多样性、高质量、静态、易于评估”五大特性，涵盖6个主要主题和99个子主题。研究人员对40多个大语言模型进行了评估，发现模型越大效果越好，RAG策略显著提升模型性能，而对齐训练会降低模型的真实性。o1-preview和Doubao-pro-32k在中文简短问答上表现最佳，中文社区模型在“中国文化”主题上优于GPT或o1系列模型。
来源：https://mp.weixin.qq.com/s/T8OmSsR-PLkmOfhniGnfdQ

页: [1]

靠浦ai课堂's Archiver

淘宝天猫推出中文大语言模型评估基准