北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

周大发表于 2024-9-15 14:58:12

OpenAI 发布 o1 系列模型，在数学、代码等领域取得重大突破，这得益于 Post-Training Scaling Laws 和强化学习的优化机制。通过迭代式 Bootstrap 和隐式思维链的训练，o1 在推理能力上显著提升，同时通过生成高质量数据进一步推动模型性能提升，有望迈向超级智能。
来源：https://mp.weixin.qq.com/s/FXGdJA8OyZvLl89rXJiyAQ

页: [1]

靠浦ai课堂's Archiver

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式