港大等联合发布Polaris配方,4B模型经700步RL训练数学推理超Claude 4

[复制链接]
周大 发表于 2025-7-9 14:41:23 | 显示全部楼层 |阅读模式
香港大学NLP团队联合字节跳动Seed与复旦大学推出名为Polaris的强化学习训练方案,成功提升4B规模模型的数学推理能力,在AIME25和AIME24评测中分别获得79.4和81.2的高分,超越多个顶尖商业大模型。该模型支持消费级显卡部署,且全部资源开源。研究发现,通过围绕待训练模型定制训练数据与超参数设置(如构建“镜像J”型难度分布数据集、动态更新样本与温度调整),可显著提升模型表现。此外,团队引入YaRN技术优化长文本推理能力,使超过预训练长度的回答准确率从26%提升至50%以上。实验还表明,应优先使用最大解码长度进行训练,避免早期截断影响后期性能。
来源:https://tech.ifeng.com/c/8kqJoI1PWyz

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 05:02 , Processed in 0.277479 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表