上海交大团队提出ReMA框架:多智能体强化学习助力大模型元思维泛化能力提升

[复制链接]
周大 发表于 前天 15:03 | 显示全部楼层 |阅读模式
上海交通大学联合多所国际高校提出了一种新的复杂推理范式ReMA,通过多智能体强化学习建模大语言模型的“元思维”过程,以提升其复杂推理与分布外泛化能力。该框架将推理拆分为元思维智能体(负责宏观规划)与推理智能体(执行具体计算),并在单轮设定下显著优于现有方法,如在AMC23数据集上性能提升达20%。实验还显示,较大模型能自适应选择元思维动作,而多轮训练虽具挑战但仍可通过参数共享和轮次级比率优化样本效率。
来源:https://mp.weixin.qq.com/s/z7fYYOsbAqeoWoNVdd9KnQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 18:53 , Processed in 0.289653 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表