大模型碰到真难题了,测了500道,o3 Pro仅通过15%

[复制链接]
周大 发表于 前天 14:41 | 显示全部楼层 |阅读模式
斯坦福大学与华盛顿大学等机构的研究者提出了一种新的大语言模型评估方法,基于未解问题构建测试集 UQ,包含 500 道跨学科问题,来源于 Stack Exchange 社区并经过多阶段筛选。UQ 测试集兼具高难度与现实意义,支持模型在推理、事实准确性等方面的能力检验。研究还提出 UQ-Validators,一种无需标准答案的验证机制,以及 UQ-Platform,一个支持专家协作的开放平台。实验表明,表现最佳的模型仅在 15% 的问题上通过验证,验证策略显著提升了准确率和精度,同时复合验证器能有效缓解模型评估中的偏见问题。研究揭示答案生成能力与验证能力之间并不绝对正相关。
来源:https://mp.weixin.qq.com/s/7qqhCcSInFIb0SERkY9GqQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-16 08:45 , Processed in 0.266422 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表