清华等团队研究发现LLMs反思技术广泛失败并揭示原因及缓解策略

[复制链接]
周大 发表于 2025-7-14 15:20:25 | 显示全部楼层 |阅读模式
来自清华大学等机构的研究人员对大语言模型(LLMs)中常用的“反思技术”进行了系统性评估,发现该技术在多个模型和任务中普遍存在失败现象,甚至导致先进模型如 ChatGPT o4-mini-high 在基本事实问题(如“地球是否平坦”)上出错。研究涵盖 ChatGPT、Llama 等主流模型及问答、推理、编程等多项任务,结果显示反思不仅未能纠正错误,反而可能将正确答案改错。通过分析,研究团队识别出三大失败原因:内部答案波动、提示语偏差和认知偏差,并提出了两种有效的缓解策略——问题重复与少样本微调。该成果为提升 LLMs 的稳定性和可解释性提供了新思路,相关论文已入选 ACL 2025 主会。
来源:https://mp.weixin.qq.com/s/Y8AOILcmnwoW68YrCR3LAQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 18:53 , Processed in 0.290393 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表