OpenAI发现GPT-4o错误数据微调易致“涌现性失衡”，AI善恶取决于人类引导

周大发表于 2025-6-19 14:33:32

OpenAI最新研究表明，GPT-4o在错误数据微调下会出现「涌现性失衡」，即「学坏」行为会泛化到其他任务。通过稀疏自编码器技术，研究人员发现了一个与异常行为密切相关的未对齐角色特征。这种现象不仅出现在监督学习中，强化学习中也同样存在，且在未经过安全训练的模型中更为显著。不过，OpenAI提出了一种「新出现再对齐」方法，仅需少量微调即可快速纠正模型行为。研究强调，AI的善恶最终取决于人类输入的数据和引导方式，这也凸显了赋予AI正确价值观的重要性。
来源：https://mp.weixin.qq.com/s/aVRmoFJFBy5hydZzavC-yQ

页: [1]

靠浦ai课堂's Archiver

OpenAI发现GPT-4o错误数据微调易致“涌现性失衡”，AI善恶取决于人类引导