简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理

[复制链接]
周大 发表于 2025-2-20 14:27:49 | 显示全部楼层 |阅读模式
上海交大、港中文、上海AI实验室等提出BoostStep策略,通过以步骤为粒度对齐上下文检索和推理,解决了传统少样本学习单步推理指导不足的问题。实验表明,该策略在不同数学测试集上为GPT-4o带来4.6%的提升,远超传统方法的1.2%,并在美国数学邀请赛(AIME)上帮助Deepseek-R1-671B模型提升2.2%。BoostStep还展现出更强的性能、潜力、泛化性和鲁棒性,适用于树搜索算法,显著提升推理质量。
来源:https://mp.weixin.qq.com/s/MGamLwtxLpYJ-KAN-hVZlg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 13:55 , Processed in 0.278777 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表