Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

[复制链接]
周大 发表于 2024-11-5 14:26:08 | 显示全部楼层 |阅读模式
上海AI Lab团队开源了LLaMA版o1项目,该项目采用蒙特卡洛树搜索、Self-Play强化学习等技术,专注于提高大模型的数学能力。10月初发布的论文显示,优化后的LLaMA-3.1-8B-Instruct在AIME2024基准测试中表现优异,超过多数商业闭源方案。项目开源内容包括预训练数据集、模型和训练代码,使用了LoRA、PPO、GAE等先进技术。另一复刻项目O1-Journey来自上交大团队,同样取得了显著进展。
来源:https://mp.weixin.qq.com/s/2vRvD4x6WWihmnbrWG33SQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 15:24 , Processed in 0.279986 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表