周大 发表于 2025-5-16 14:12:48

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法

腾讯PCG社交线研究团队通过强化学习方法(GRPO)结合基于奖励的课程采样策略(RCS),解决了AI智能助手在工具爆炸背景下的意图识别泛化难题。实验显示,相比监督微调(SFT),GRPO显著提升未知意图和跨语言泛化能力,并验证了“思考”机制的重要性。此外,Pretrain与Instruct模型经GRPO训练后性能相近。未来,团队将探索在线数据筛选、多意图识别及任务型对话相关任务。
来源:https://mp.weixin.qq.com/s/ZxJj_Pgt9-u9dd4tGDJkIw
页: [1]
查看完整版本: 泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法