ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
AI专家Karpathy近期表示RLHF并非真正的强化学习,这一观点引发业界热议。Karpathy认为,该方法的奖励机制过于模糊且易被模型操控,无法媲美AlphaGo的成就。尽管RLHF存在局限性,但它在降低幻觉现象等方面仍有所贡献。对此,许多评论家持有不同看法,认为RLHF对LLM的发展具有重要意义。来源:https://mp.weixin.qq.com/s/X4ZvL-VPYyR7xkxvCoA4Gg
页:
[1]