大模型碰到真难题了，测了500道，o3 Pro仅通过15%

周大发表于 2025-9-14 14:41:53

斯坦福大学与华盛顿大学等机构的研究者提出了一种新的大语言模型评估方法，基于未解问题构建测试集 UQ，包含 500 道跨学科问题，来源于 Stack Exchange 社区并经过多阶段筛选。UQ 测试集兼具高难度与现实意义，支持模型在推理、事实准确性等方面的能力检验。研究还提出 UQ-Validators，一种无需标准答案的验证机制，以及 UQ-Platform，一个支持专家协作的开放平台。实验表明，表现最佳的模型仅在 15% 的问题上通过验证，验证策略显著提升了准确率和精度，同时复合验证器能有效缓解模型评估中的偏见问题。研究揭示答案生成能力与验证能力之间并不绝对正相关。
来源：https://mp.weixin.qq.com/s/7qqhCcSInFIb0SERkY9GqQ

		自动登录	找回密码
密码			立即注册

课程导航

大模型碰到真难题了，测了500道，o3 Pro仅通过15%