港大等联合发布Polaris配方，4B模型经700步RL训练数学推理超Claude 4

周大发表于 2025-7-9 14:41:23

香港大学NLP团队联合字节跳动Seed与复旦大学推出名为Polaris的强化学习训练方案，成功提升4B规模模型的数学推理能力，在AIME25和AIME24评测中分别获得79.4和81.2的高分，超越多个顶尖商业大模型。该模型支持消费级显卡部署，且全部资源开源。研究发现，通过围绕待训练模型定制训练数据与超参数设置（如构建“镜像J”型难度分布数据集、动态更新样本与温度调整），可显著提升模型表现。此外，团队引入YaRN技术优化长文本推理能力，使超过预训练长度的回答准确率从26%提升至50%以上。实验还表明，应优先使用最大解码长度进行训练，避免早期截断影响后期性能。
来源：https://tech.ifeng.com/c/8kqJoI1PWyz

页: [1]

靠浦ai课堂's Archiver

港大等联合发布Polaris配方，4B模型经700步RL训练数学推理超Claude 4