周大 发表于 2025-7-3 15:03:04

上海交大团队提出ReMA框架:多智能体强化学习助力大模型元思维泛化能力提升

上海交通大学联合多所国际高校提出了一种新的复杂推理范式ReMA,通过多智能体强化学习建模大语言模型的“元思维”过程,以提升其复杂推理与分布外泛化能力。该框架将推理拆分为元思维智能体(负责宏观规划)与推理智能体(执行具体计算),并在单轮设定下显著优于现有方法,如在AMC23数据集上性能提升达20%。实验还显示,较大模型能自适应选择元思维动作,而多轮训练虽具挑战但仍可通过参数共享和轮次级比率优化样本效率。
来源:https://mp.weixin.qq.com/s/z7fYYOsbAqeoWoNVdd9KnQ
页: [1]
查看完整版本: 上海交大团队提出ReMA框架:多智能体强化学习助力大模型元思维泛化能力提升