大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
上海交通大学王德泉课题组提出PersonaEval基准测试,系统评估大语言模型(LLM)在角色扮演中识别说话者身份的能力。研究发现,即便是表现最佳的Gemini-2.5-pro,准确率仅为68.8%,显著低于人类平均90.8%。测试数据来自小说、剧本及真实视频,强调深层推理能力。结果显示,微调角色知识未能提升性能,而推理导向方法更具潜力。该研究揭示了当前LLM作为“AI裁判”的基础缺陷,并指出提升推理能力是关键方向。论文将于2025年COLM大会发表。
来源:https://mp.weixin.qq.com/s/QfNguBFuNtcAIS5hiIeZ7g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 06:33 , Processed in 0.286768 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表