谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

周大发表于 2025-5-5 14:55:34

谷歌DeepMind研究发现，大语言模型在决策场景中存在贪婪性、频率偏差及知-行差距三大问题。实验显示，小规模LLMs易机械复制高频动作，大规模LLMs虽减弱频率偏差但仍维持贪婪行为。研究提出强化学习微调方法（RLFT），通过优化自动生成的思维链推理过程，显著提升LLMs决策能力，降低遗憾值并缩小知-行差距。
来源：https://mp.weixin.qq.com/s/8wxEyYNYr5L9k0Kb64_O4g

页: [1]

靠浦ai课堂's Archiver

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙