简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理
上海交大、港中文、上海AI实验室等提出BoostStep策略,通过以步骤为粒度对齐上下文检索和推理,解决了传统少样本学习单步推理指导不足的问题。实验表明,该策略在不同数学测试集上为GPT-4o带来4.6%的提升,远超传统方法的1.2%,并在美国数学邀请赛(AIME)上帮助Deepseek-R1-671B模型提升2.2%。BoostStep还展现出更强的性能、潜力、泛化性和鲁棒性,适用于树搜索算法,显著提升推理质量。来源:https://mp.weixin.qq.com/s/MGamLwtxLpYJ-KAN-hVZlg
页:
[1]