北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

[复制链接]
周大 发表于 2024-9-15 14:58:12 | 显示全部楼层 |阅读模式
OpenAI 发布 o1 系列模型,在数学、代码等领域取得重大突破,这得益于 Post-Training Scaling Laws 和强化学习的优化机制。通过迭代式 Bootstrap 和隐式思维链的训练,o1 在推理能力上显著提升,同时通过生成高质量数据进一步推动模型性能提升,有望迈向超级智能。
来源:https://mp.weixin.qq.com/s/FXGdJA8OyZvLl89rXJiyAQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 05:51 , Processed in 0.289432 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表