北大FairyR1-32B模型仅用5%参数量,数学代码能力超越DeepSeek满血版
北京大学杨仝教授团队开发的FairyR1-32B模型,在仅使用约5%参数量的情况下,于数学和代码能力上展现出与大型模型相当甚至更优的表现。实验结果显示,该模型在AIME 2025和LiveCodeBench基准上得分略高于DeepSeek-R1-671B,而在科学问答方面稍逊一筹。通过优化的数据处理和模型融合技术,团队成功降低了模型规模和推理成本,同时保证了特定任务的高性能。此成果已开源至Huggingface。来源:https://mp.weixin.qq.com/s/6HZlKQ1V4qzqh6tXnmDk4A
页:
[1]