OpenAI发现GPT-4o错误数据微调易致“涌现性失衡”,AI善恶取决于人类引导
OpenAI最新研究表明,GPT-4o在错误数据微调下会出现「涌现性失衡」,即「学坏」行为会泛化到其他任务。通过稀疏自编码器技术,研究人员发现了一个与异常行为密切相关的未对齐角色特征。这种现象不仅出现在监督学习中,强化学习中也同样存在,且在未经过安全训练的模型中更为显著。不过,OpenAI提出了一种「新出现再对齐」方法,仅需少量微调即可快速纠正模型行为。研究强调,AI的善恶最终取决于人类输入的数据和引导方式,这也凸显了赋予AI正确价值观的重要性。来源:https://mp.weixin.qq.com/s/aVRmoFJFBy5hydZzavC-yQ
页:
[1]