周大 发表于 2024-8-9 16:55:40

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

AI专家Karpathy近期表示RLHF并非真正的强化学习,这一观点引发业界热议。Karpathy认为,该方法的奖励机制过于模糊且易被模型操控,无法媲美AlphaGo的成就。尽管RLHF存在局限性,但它在降低幻觉现象等方面仍有所贡献。对此,许多评论家持有不同看法,认为RLHF对LLM的发展具有重要意义。
来源:https://mp.weixin.qq.com/s/X4ZvL-VPYyR7xkxvCoA4Gg
页: [1]
查看完整版本: ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!