SPIRAL框架突破:语言模型通过零和游戏自对弈显著提升数学推理能力

[复制链接]
周大 发表于 昨天 14:39 | 显示全部楼层 |阅读模式
由新加坡国立大学、A*STAR 和东北大学等机构联合提出的新方法 SPIRAL,利用多智能体强化学习在零和游戏中进行自对弈训练,成功提升语言模型的通用推理能力。研究显示,仅通过库恩扑克训练,模型在数学任务中平均提升 8.7%,Minerva Math 基准提升达 18.1%。该方法摆脱了传统训练对人工标注数据和奖励函数的依赖,通过井字棋、库恩扑克和简单谈判等游戏,培养出期望值计算、逐案分析和模式识别三种核心推理模式。实验表明,自对弈训练优于固定或随机对手设置,且多游戏联合训练效果更佳。技术创新包括分布式训练系统和 RAE 方法,有效防止“思维崩溃”。在已有强大模型上应用 SPIRAL 后,推理能力进一步提升,AIME 成绩提高 10 个百分点。尽管仍存在计算资源高、性能趋于瓶颈等局限,该研究为语言模型推理训练提供了新思路,也为多智能体强化学习的发展指明方向。
来源:https://mp.weixin.qq.com/s/jAaM3hD46gFEFGFJdLVVJg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-31 20:30 , Processed in 0.295669 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表