无需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

周大发表于 2025-11-15 15:06:49

阿里巴巴夸克、北京大学与中山大学联合提出 Search Self-Play（SSP），一种无需人工标注的搜索型 Agent 自我博弈训练方法。该方法让模型分饰“出题者”与“解题者”，通过动态对抗实现共同进化。实验表明，在七大数据集上，SSP 使 Qwen2.5-7B-Base 平均得分提升 26.4 分，TriviaQA 上提升达 40.4 分，且在更大模型上仍能达成五项 SOTA，展现出强大泛化能力。
来源：https://mp.weixin.qq.com/s/obhq7BrxTdTbUU3C0KpD8g

		自动登录	找回密码
密码			立即注册

课程导航

无需任何监督信号！自博弈机制让深度搜索Agent实现自我进化