大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

[复制链接]
周大 发表于 2025-8-17 14:32:00 | 显示全部楼层 |阅读模式
上海交通大学王德泉课题组提出PersonaEval基准测试,系统评估大语言模型(LLM)在角色扮演中识别说话者身份的能力。研究发现,即便是表现最佳的Gemini-2.5-pro,准确率仅为68.8%,显著低于人类平均90.8%。测试数据来自小说、剧本及真实视频,强调深层推理能力。结果显示,微调角色知识未能提升性能,而推理导向方法更具潜力。该研究揭示了当前LLM作为“AI裁判”的基础缺陷,并指出提升推理能力是关键方向。论文将于2025年COLM大会发表。
来源:https://mp.weixin.qq.com/s/QfNguBFuNtcAIS5hiIeZ7g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-12 05:12 , Processed in 0.282029 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表