淘天集团发布全面中文评测集Chinese SimpleQA

[复制链接]
周大 发表于 2024-11-20 14:40:27 | 显示全部楼层 |阅读模式
淘天集团未来生活实验室推出首个全面评估模型回答简短事实性问题能力的中文评测集Chinese SimpleQA,涵盖99个子类主题。评测集具有中文特色、全面性、高质量、静态、易于评估和有难度区分度等特点。基于此评测集,实验室评估了40多个国内外大模型,发现大规模模型校准性能更优,RAG策略显著提升模型准确性,多数模型存在“对齐税”问题。o1-preview在评测中表现最佳。
来源:https://mp.weixin.qq.com/s/i3ciRIMnEgtUfss0g9Wksg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-26 11:32 , Processed in 0.284342 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表