周大 发表于 2025-5-5 14:55:34

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

谷歌DeepMind研究发现,大语言模型在决策场景中存在贪婪性、频率偏差及知-行差距三大问题。实验显示,小规模LLMs易机械复制高频动作,大规模LLMs虽减弱频率偏差但仍维持贪婪行为。研究提出强化学习微调方法(RLFT),通过优化自动生成的思维链推理过程,显著提升LLMs决策能力,降低遗憾值并缩小知-行差距。
来源:https://mp.weixin.qq.com/s/8wxEyYNYr5L9k0Kb64_O4g
页: [1]
查看完整版本: 谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙