知名 AI 学者 Andrej Karpathy 批评了当前对人工智能交互的误解,指出 AI 主要是通过模仿人工标注数据训练,不应被过分神化。他认为,基于人类反馈的强化学习(RLHF)虽提升了模型性能,但仍受限于人类水平,并且可能导致模型出现异常行为。最新研究表明,尽管大模型参数不断增大,但在简单任务上的表现仍不尽如人意。OpenAI 提出的基于规则的奖励(RBR)可能为大模型的发展提供新的思路。
来源:https://mp.weixin.qq.com/s/4lVosGb3UeQ_mVP9m6Mobg