Skywork开源最强AI奖励模型V2:4000万样本训练,8款参数覆盖6亿至80亿,刷新7项基准

[复制链接]
周大 发表于 昨天 15:04 | 显示全部楼层 |阅读模式
昆仑万维推出新一代奖励模型Skywork-Reward-V2,通过构建全球最大的4,000万对偏好样本数据集Skywork-SynPref-40M,并采用“人机协同、两阶段迭代”机制确保数据质量,在七个主流评测基准中刷新SOTA表现。该系列包含8款模型,参数覆盖6亿至80亿,最小0.6B模型即可媲美上一代27B模型性能,最大8B模型成为当前最优开源奖励模型。Skywork-Reward-V2在多维度任务如安全性、事实性判断、Best-of-N扩展和抗偏见测试中均表现出色,突破模型规模限制,验证了高质量数据的重要性。该成果将推动RLHF研究与开源社区发展,助力通用人工智能进步。
来源:https://mp.weixin.qq.com/s/sEWpNgO1TytGL58VY4eKOw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 23:40 , Processed in 0.276057 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表