终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek

[复制链接]
周大 发表于 2025-9-17 13:51:01 | 显示全部楼层 |阅读模式
北京智源研究院发布首个面向“深度研究”场景的大规模开源数据集InfoSeek,并提出基于“扩散-回溯”机制的层级约束满足问题(HCSP)建模方法。该数据集包含5万条高难度训练样本,训练出的3B参数模型在BrowseComp-Plus基准测试中取得16.5%的准确率,接近主流商业模型表现。实验表明,InfoSeek在多跳QA任务中也具备显著优势,为提升模型复杂推理能力提供了高质量训练资源。
来源:https://mp.weixin.qq.com/s/hmxu9bW5zTbWiDotnKaoCw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 14:37 , Processed in 0.293742 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表