周大 发表于 2024-11-20 14:40:27

淘天集团发布全面中文评测集Chinese SimpleQA

淘天集团未来生活实验室推出首个全面评估模型回答简短事实性问题能力的中文评测集Chinese SimpleQA,涵盖99个子类主题。评测集具有中文特色、全面性、高质量、静态、易于评估和有难度区分度等特点。基于此评测集,实验室评估了40多个国内外大模型,发现大规模模型校准性能更优,RAG策略显著提升模型准确性,多数模型存在“对齐税”问题。o1-preview在评测中表现最佳。
来源:https://mp.weixin.qq.com/s/i3ciRIMnEgtUfss0g9Wksg
页: [1]
查看完整版本: 淘天集团发布全面中文评测集Chinese SimpleQA