大模型给自己当裁判并不靠谱！上海交通大学新研究揭示LLM-as-a-judge机制缺陷

周大发表于 2025-8-17 14:32:00

上海交通大学王德泉课题组提出PersonaEval基准测试，系统评估大语言模型（LLM）在角色扮演中识别说话者身份的能力。研究发现，即便是表现最佳的Gemini-2.5-pro，准确率仅为68.8%，显著低于人类平均90.8%。测试数据来自小说、剧本及真实视频，强调深层推理能力。结果显示，微调角色知识未能提升性能，而推理导向方法更具潜力。该研究揭示了当前LLM作为“AI裁判”的基础缺陷，并指出提升推理能力是关键方向。论文将于2025年COLM大会发表。
来源：https://mp.weixin.qq.com/s/QfNguBFuNtcAIS5hiIeZ7g

页: [1]

靠浦ai课堂's Archiver

大模型给自己当裁判并不靠谱！上海交通大学新研究揭示LLM-as-a-judge机制缺陷