新测评MR-Ben揭示大模型推理能力,GPT4-Turbo表现出色

[复制链接]
周大 发表于 2024-7-18 15:49:04 | 显示全部楼层 |阅读模式
为解决大模型在测试中可能因记忆答案而表现失真的问题,贾佳亚团队与多所高校合作推出了新型测评数据集MR-Ben。不同于传统答题模式,MR-Ben让模型作为“阅卷者”评估已有答案,提高了评估的公正性和准确性。在初步测试中,闭源模型GPT4-Turbo表现出色,但所有模型在MR-Ben上的得分均未达到理想状态,反映出模型的推理能力仍有提升空间。此外,研究还发现小模型在特定场景下可能优于大模型。
来源:https://mp.weixin.qq.com/s/ss3fUfT0EKsyq-B3TcemsA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 12:48 , Processed in 0.310923 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表