泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

周大发表于 2025-5-16 14:12:48

腾讯PCG社交线研究团队通过强化学习方法（GRPO）结合基于奖励的课程采样策略（RCS），解决了AI智能助手在工具爆炸背景下的意图识别泛化难题。实验显示，相比监督微调（SFT），GRPO显著提升未知意图和跨语言泛化能力，并验证了“思考”机制的重要性。此外，Pretrain与Instruct模型经GRPO训练后性能相近。未来，团队将探索在线数据筛选、多意图识别及任务型对话相关任务。
来源：https://mp.weixin.qq.com/s/ZxJj_Pgt9-u9dd4tGDJkIw

页: [1]

靠浦ai课堂's Archiver

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法