谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

[复制链接]
周大 发表于 2025-5-5 14:55:34 | 显示全部楼层 |阅读模式
谷歌DeepMind研究发现,大语言模型在决策场景中存在贪婪性、频率偏差及知-行差距三大问题。实验显示,小规模LLMs易机械复制高频动作,大规模LLMs虽减弱频率偏差但仍维持贪婪行为。研究提出强化学习微调方法(RLFT),通过优化自动生成的思维链推理过程,显著提升LLMs决策能力,降低遗憾值并缩小知-行差距。
来源:https://mp.weixin.qq.com/s/8wxEyYNYr5L9k0Kb64_O4g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-21 02:56 , Processed in 0.285319 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表