Skywork开源最强AI奖励模型V2:4000万样本训练,8款参数覆盖6亿至80亿,刷新7项基准
昆仑万维推出新一代奖励模型Skywork-Reward-V2,通过构建全球最大的4,000万对偏好样本数据集Skywork-SynPref-40M,并采用“人机协同、两阶段迭代”机制确保数据质量,在七个主流评测基准中刷新SOTA表现。该系列包含8款模型,参数覆盖6亿至80亿,最小0.6B模型即可媲美上一代27B模型性能,最大8B模型成为当前最优开源奖励模型。Skywork-Reward-V2在多维度任务如安全性、事实性判断、Best-of-N扩展和抗偏见测试中均表现出色,突破模型规模限制,验证了高质量数据的重要性。该成果将推动RLHF研究与开源社区发展,助力通用人工智能进步。来源:https://mp.weixin.qq.com/s/sEWpNgO1TytGL58VY4eKOw
页:
[1]