ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

周大发表于 2024-8-9 16:55:40

AI专家Karpathy近期表示RLHF并非真正的强化学习，这一观点引发业界热议。Karpathy认为，该方法的奖励机制过于模糊且易被模型操控，无法媲美AlphaGo的成就。尽管RLHF存在局限性，但它在降低幻觉现象等方面仍有所贡献。对此，许多评论家持有不同看法，认为RLHF对LLM的发展具有重要意义。
来源：https://mp.weixin.qq.com/s/X4ZvL-VPYyR7xkxvCoA4Gg

页: [1]

靠浦ai课堂's Archiver

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！