周大 发表于 2025-2-14 20:30:31

递归式自我提升助力大模型掌握多位数乘法

近期研究表明,尽管推理模型如DeepSeek-R1和o3在数学竞赛中表现出色(如AIME 2024上达到79.8%-87.3%的准确度),但它们在多位数乘法任务上仍面临挑战。例如,DeepSeek-R1能正确计算9位数乘法,但在15位数时出错。然而,微软研究院Dimitris Papailiopoulos团队提出了一种“递归式自我提升”方法,通过迭代生成训练数据并逐步学习更难的任务,使Transformer模型能够在不修改架构的情况下实现长度泛化。实验结果显示,使用多数投票与长度过滤相结合的方法,模型在9位数乘法上达到近乎完美的表现。这为解决大模型在复杂算术运算中的局限性提供了新思路。
来源:https://mp.weixin.qq.com/s/nFltEWUts-8IM1z5GawlYw
页: [1]
查看完整版本: 递归式自我提升助力大模型掌握多位数乘法