Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

周大发表于 2024-11-5 14:26:08

上海AI Lab团队开源了LLaMA版o1项目，该项目采用蒙特卡洛树搜索、Self-Play强化学习等技术，专注于提高大模型的数学能力。10月初发布的论文显示，优化后的LLaMA-3.1-8B-Instruct在AIME2024基准测试中表现优异，超过多数商业闭源方案。项目开源内容包括预训练数据集、模型和训练代码，使用了LoRA、PPO、GAE等先进技术。另一复刻项目O1-Journey来自上交大团队，同样取得了显著进展。
来源：https://mp.weixin.qq.com/s/2vRvD4x6WWihmnbrWG33SQ

页: [1]

靠浦ai课堂's Archiver

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式