泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
腾讯PCG社交线研究团队通过强化学习方法(GRPO)结合基于奖励的课程采样策略(RCS),解决了AI智能助手在工具爆炸背景下的意图识别泛化难题。实验显示,相比监督微调(SFT),GRPO显著提升未知意图和跨语言泛化能力,并验证了“思考”机制的重要性。此外,Pretrain与Instruct模型经GRPO训练后性能相近。未来,团队将探索在线数据筛选、多意图识别及任务型对话相关任务。
来源:https://mp.weixin.qq.com/s/ZxJj_Pgt9-u9dd4tGDJkIw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 11:26 , Processed in 0.279767 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表