周大 发表于 2024-11-5 14:26:08

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

上海AI Lab团队开源了LLaMA版o1项目,该项目采用蒙特卡洛树搜索、Self-Play强化学习等技术,专注于提高大模型的数学能力。10月初发布的论文显示,优化后的LLaMA-3.1-8B-Instruct在AIME2024基准测试中表现优异,超过多数商业闭源方案。项目开源内容包括预训练数据集、模型和训练代码,使用了LoRA、PPO、GAE等先进技术。另一复刻项目O1-Journey来自上交大团队,同样取得了显著进展。
来源:https://mp.weixin.qq.com/s/2vRvD4x6WWihmnbrWG33SQ
页: [1]
查看完整版本: Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式