首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

[复制链接]
周大 发表于 2025-4-28 14:55:26 | 显示全部楼层 |阅读模式
伊利诺伊大学香槟分校团队提出 ToolRL,一种强化学习工具使用训练方法。通过精细化奖励设计,ToolRL 解决了传统监督训练在复杂场景中的不足,大幅提升模型工具推理能力。实验显示,相比监督微调,ToolRL 在多个任务中准确率提高超 15%,泛化能力更强。该研究开创了工具调用强化学习奖励新范式,推动语言模型与外部工具协同的智能化发展。
来源:https://mp.weixin.qq.com/s/IVZJlhfU8uaeFZZvPSkG-g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 05:49 , Processed in 0.312277 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表