Allen Institute for AI(AI2)发布了Tülu 3系列开源语言模型,其性能与GPT-4o-mini等闭源模型相当。Tülu 3包括数据、代码、训练配方和评估框架,旨在推动开源模型后训练技术的发展。该模型通过四个阶段的训练:数据构造、监督微调(SFT)、偏好调整和可验证奖励的强化学习(RLVR),显著提升了模型的性能和泛化能力。Tülu 3基于Llama 3.1构建,超越了多个现有模型,包括GPT-4o-mini和Claude 3.5-Haiku。
来源:https://mp.weixin.qq.com/s/hGjJ8EPHMYkiyHIlRh2ysg