ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

[复制链接]
周大 发表于 2024-8-9 16:55:40 | 显示全部楼层 |阅读模式
AI专家Karpathy近期表示RLHF并非真正的强化学习,这一观点引发业界热议。Karpathy认为,该方法的奖励机制过于模糊且易被模型操控,无法媲美AlphaGo的成就。尽管RLHF存在局限性,但它在降低幻觉现象等方面仍有所贡献。对此,许多评论家持有不同看法,认为RLHF对LLM的发展具有重要意义。
来源:https://mp.weixin.qq.com/s/X4ZvL-VPYyR7xkxvCoA4Gg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 22:48 , Processed in 0.312477 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表