周大 发表于 2025-9-17 13:51:01

终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek

北京智源研究院发布首个面向“深度研究”场景的大规模开源数据集InfoSeek,并提出基于“扩散-回溯”机制的层级约束满足问题(HCSP)建模方法。该数据集包含5万条高难度训练样本,训练出的3B参数模型在BrowseComp-Plus基准测试中取得16.5%的准确率,接近主流商业模型表现。实验表明,InfoSeek在多跳QA任务中也具备显著优势,为提升模型复杂推理能力提供了高质量训练资源。
来源:https://mp.weixin.qq.com/s/hmxu9bW5zTbWiDotnKaoCw
页: [1]
查看完整版本: 终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek