北大FairyR1-32B模型仅用5%参数量，数学代码能力超越DeepSeek满血版

周大发表于 2025-5-27 15:07:13

北京大学杨仝教授团队开发的FairyR1-32B模型，在仅使用约5%参数量的情况下，于数学和代码能力上展现出与大型模型相当甚至更优的表现。实验结果显示，该模型在AIME 2025和LiveCodeBench基准上得分略高于DeepSeek-R1-671B，而在科学问答方面稍逊一筹。通过优化的数据处理和模型融合技术，团队成功降低了模型规模和推理成本，同时保证了特定任务的高性能。此成果已开源至Huggingface。
来源：https://mp.weixin.qq.com/s/6HZlKQ1V4qzqh6tXnmDk4A

页: [1]

靠浦ai课堂's Archiver

北大FairyR1-32B模型仅用5%参数量，数学代码能力超越DeepSeek满血版