首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路

周大发表于 2025-4-28 14:55:26

伊利诺伊大学香槟分校团队提出 ToolRL，一种强化学习工具使用训练方法。通过精细化奖励设计，ToolRL 解决了传统监督训练在复杂场景中的不足，大幅提升模型工具推理能力。实验显示，相比监督微调，ToolRL 在多个任务中准确率提高超 15%，泛化能力更强。该研究开创了工具调用强化学习奖励新范式，推动语言模型与外部工具协同的智能化发展。
来源：https://mp.weixin.qq.com/s/IVZJlhfU8uaeFZZvPSkG-g

页: [1]

靠浦ai课堂's Archiver

首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路