周大 发表于 2025-2-7 15:00:21

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

多模态大语言模型(MLLM)在复杂推理任务中表现不佳。为解决这一问题,研究人员提出集体蒙特卡罗树搜索(CoMCTS),通过多个模型的集体知识协作搜索有效的推理路径,克服了传统MCTS方法在搜索有效性和效率上的不足。CoMCTS具有联合扩展推理路径、联合模拟与错误定位机制等优势,并通过构建反思推理数据进一步提升性能。基于CoMCTS构建的Mulberry-260K数据集训练的Mulberry模型,在8个基准测试中显著优于现有模型,验证了该方法的有效性。
来源:https://mp.weixin.qq.com/s/zkCvrKM4z7ov94BlmuaV4w
页: [1]
查看完整版本: 将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思