无需任何监督信号!自博弈机制让深度搜索Agent实现自我进化

[复制链接]
周大 发表于 2025-11-15 15:06:49 | 显示全部楼层 |阅读模式
阿里巴巴夸克、北京大学与中山大学联合提出 Search Self-Play(SSP),一种无需人工标注的搜索型 Agent 自我博弈训练方法。该方法让模型分饰“出题者”与“解题者”,通过动态对抗实现共同进化。实验表明,在七大数据集上,SSP 使 Qwen2.5-7B-Base 平均得分提升 26.4 分,TriviaQA 上提升达 40.4 分,且在更大模型上仍能达成五项 SOTA,展现出强大泛化能力。
来源:https://mp.weixin.qq.com/s/obhq7BrxTdTbUU3C0KpD8g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 00:44 , Processed in 0.263863 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表