将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

[复制链接]
周大 发表于 2025-2-7 15:00:21 | 显示全部楼层 |阅读模式
多模态大语言模型(MLLM)在复杂推理任务中表现不佳。为解决这一问题,研究人员提出集体蒙特卡罗树搜索(CoMCTS),通过多个模型的集体知识协作搜索有效的推理路径,克服了传统MCTS方法在搜索有效性和效率上的不足。CoMCTS具有联合扩展推理路径、联合模拟与错误定位机制等优势,并通过构建反思推理数据进一步提升性能。基于CoMCTS构建的Mulberry-260K数据集训练的Mulberry模型,在8个基准测试中显著优于现有模型,验证了该方法的有效性。
来源:https://mp.weixin.qq.com/s/zkCvrKM4z7ov94BlmuaV4w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 03:27 , Processed in 0.307548 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表