“深思熟虑”的AI：OpenAI提出全新安全对齐方法

周大发表于 2024-12-26 14:40:17

OpenAI提出“深思熟虑的对齐”方法以提升AI模型安全性，针对现有技术局限性（如易被操纵、产生有害内容等），通过监督微调与强化学习两阶段训练模型推理安全规范。此方法利用模型生成数据和思维链推理，减少资源需求。o1模型在抵抗越狱提示方面表现出色，在StrongREJECT得分为0.88，XSTest准确率达93%，为伦理挑战提供可扩展且可解释的解决方案。
来源：https://tech.ifeng.com/c/8fbLxFFeaE6

页: [1]

靠浦ai课堂's Archiver

“深思熟虑”的AI：OpenAI提出全新安全对齐方法