递归式自我提升助力大模型掌握多位数乘法
近期研究表明,尽管推理模型如DeepSeek-R1和o3在数学竞赛中表现出色(如AIME 2024上达到79.8%-87.3%的准确度),但它们在多位数乘法任务上仍面临挑战。例如,DeepSeek-R1能正确计算9位数乘法,但在15位数时出错。然而,微软研究院Dimitris Papailiopoulos团队提出了一种“递归式自我提升”方法,通过迭代生成训练数据并逐步学习更难的任务,使Transformer模型能够在不修改架构的情况下实现长度泛化。实验结果显示,使用多数投票与长度过滤相结合的方法,模型在9位数乘法上达到近乎完美的表现。这为解决大模型在复杂算术运算中的局限性提供了新思路。来源:https://mp.weixin.qq.com/s/nFltEWUts-8IM1z5GawlYw
页:
[1]