大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
上海交通大学王德泉课题组提出PersonaEval基准测试,系统评估大语言模型(LLM)在角色扮演中识别说话者身份的能力。研究发现,即便是表现最佳的Gemini-2.5-pro,准确率仅为68.8%,显著低于人类平均90.8%。测试数据来自小说、剧本及真实视频,强调深层推理能力。结果显示,微调角色知识未能提升性能,而推理导向方法更具潜力。该研究揭示了当前LLM作为“AI裁判”的基础缺陷,并指出提升推理能力是关键方向。论文将于2025年COLM大会发表。来源:https://mp.weixin.qq.com/s/QfNguBFuNtcAIS5hiIeZ7g
页:
[1]