周大 发表于 2025-7-9 14:41:23

港大等联合发布Polaris配方,4B模型经700步RL训练数学推理超Claude 4

香港大学NLP团队联合字节跳动Seed与复旦大学推出名为Polaris的强化学习训练方案,成功提升4B规模模型的数学推理能力,在AIME25和AIME24评测中分别获得79.4和81.2的高分,超越多个顶尖商业大模型。该模型支持消费级显卡部署,且全部资源开源。研究发现,通过围绕待训练模型定制训练数据与超参数设置(如构建“镜像J”型难度分布数据集、动态更新样本与温度调整),可显著提升模型表现。此外,团队引入YaRN技术优化长文本推理能力,使超过预训练长度的回答准确率从26%提升至50%以上。实验还表明,应优先使用最大解码长度进行训练,避免早期截断影响后期性能。
来源:https://tech.ifeng.com/c/8kqJoI1PWyz
页: [1]
查看完整版本: 港大等联合发布Polaris配方,4B模型经700步RL训练数学推理超Claude 4