周大 发表于 2025-4-28 14:55:26

首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

伊利诺伊大学香槟分校团队提出 ToolRL,一种强化学习工具使用训练方法。通过精细化奖励设计,ToolRL 解决了传统监督训练在复杂场景中的不足,大幅提升模型工具推理能力。实验显示,相比监督微调,ToolRL 在多个任务中准确率提高超 15%,泛化能力更强。该研究开创了工具调用强化学习奖励新范式,推动语言模型与外部工具协同的智能化发展。
来源:https://mp.weixin.qq.com/s/IVZJlhfU8uaeFZZvPSkG-g
页: [1]
查看完整版本: 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路