Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
上海AI Lab团队开源了LLaMA版o1项目,该项目采用蒙特卡洛树搜索、Self-Play强化学习等技术,专注于提高大模型的数学能力。10月初发布的论文显示,优化后的LLaMA-3.1-8B-Instruct在AIME2024基准测试中表现优异,超过多数商业闭源方案。项目开源内容包括预训练数据集、模型和训练代码,使用了LoRA、PPO、GAE等先进技术。另一复刻项目O1-Journey来自上交大团队,同样取得了显著进展。来源:https://mp.weixin.qq.com/s/2vRvD4x6WWihmnbrWG33SQ
页:
[1]