“深思熟虑”的AI:OpenAI提出全新安全对齐方法
OpenAI提出“深思熟虑的对齐”方法以提升AI模型安全性,针对现有技术局限性(如易被操纵、产生有害内容等),通过监督微调与强化学习两阶段训练模型推理安全规范。此方法利用模型生成数据和思维链推理,减少资源需求。o1模型在抵抗越狱提示方面表现出色,在StrongREJECT得分为0.88,XSTest准确率达93%,为伦理挑战提供可扩展且可解释的解决方案。来源:https://tech.ifeng.com/c/8fbLxFFeaE6
页:
[1]