Skywork开源最强AI奖励模型V2：4000万样本训练，8款参数覆盖6亿至80亿，刷新7项基准

周大发表于 2025-7-4 15:04:17

昆仑万维推出新一代奖励模型Skywork-Reward-V2，通过构建全球最大的4,000万对偏好样本数据集Skywork-SynPref-40M，并采用“人机协同、两阶段迭代”机制确保数据质量，在七个主流评测基准中刷新SOTA表现。该系列包含8款模型，参数覆盖6亿至80亿，最小0.6B模型即可媲美上一代27B模型性能，最大8B模型成为当前最优开源奖励模型。Skywork-Reward-V2在多维度任务如安全性、事实性判断、Best-of-N扩展和抗偏见测试中均表现出色，突破模型规模限制，验证了高质量数据的重要性。该成果将推动RLHF研究与开源社区发展，助力通用人工智能进步。
来源：https://mp.weixin.qq.com/s/sEWpNgO1TytGL58VY4eKOw

页: [1]

靠浦ai课堂's Archiver

Skywork开源最强AI奖励模型V2：4000万样本训练，8款参数覆盖6亿至80亿，刷新7项基准