简单示例提升DeepSeek-R1美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理

周大发表于 2025-2-20 14:27:49

上海交大、港中文、上海AI实验室等提出BoostStep策略，通过以步骤为粒度对齐上下文检索和推理，解决了传统少样本学习单步推理指导不足的问题。实验表明，该策略在不同数学测试集上为GPT-4o带来4.6%的提升，远超传统方法的1.2%，并在美国数学邀请赛（AIME）上帮助Deepseek-R1-671B模型提升2.2%。BoostStep还展现出更强的性能、潜力、泛化性和鲁棒性，适用于树搜索算法，显著提升推理质量。
来源：https://mp.weixin.qq.com/s/MGamLwtxLpYJ-KAN-hVZlg

		自动登录	找回密码
密码			立即注册

课程导航

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理