周大 发表于 2024-8-16 15:53:07

两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

微软亚洲研究院与哈佛大学的研究团队开发了一种名为Self-play muTuAl Reasoning(rStar)的新方法,旨在提升小型语言模型(SLM)的推理能力。rStar通过丰富多样的推理动作集合和专门设计的奖励函数,结合MCTS Rollout生成推理轨迹,并利用互恰性验证推理结果,显著提高了SLM在数学和常识推理任务上的准确度。这种方法不需要更强大的模型或微调即可实现性能提升。
来源:https://mp.weixin.qq.com/s/_ETAL-qyBpj5fBii4nZ7DQ
页: [1]
查看完整版本: 两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调