“深思熟虑”的AI:OpenAI提出全新安全对齐方法

[复制链接]
周大 发表于 2024-12-26 14:40:17 | 显示全部楼层 |阅读模式
OpenAI提出“深思熟虑的对齐”方法以提升AI模型安全性,针对现有技术局限性(如易被操纵、产生有害内容等),通过监督微调与强化学习两阶段训练模型推理安全规范。此方法利用模型生成数据和思维链推理,减少资源需求。o1模型在抵抗越狱提示方面表现出色,在StrongREJECT得分为0.88,XSTest准确率达93%,为伦理挑战提供可扩展且可解释的解决方案。
来源:https://tech.ifeng.com/c/8fbLxFFeaE6

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 17:31 , Processed in 0.280869 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表