两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

周大发表于 2024-8-16 15:53:07

微软亚洲研究院与哈佛大学的研究团队开发了一种名为Self-play muTuAl Reasoning（rStar）的新方法，旨在提升小型语言模型（SLM）的推理能力。rStar通过丰富多样的推理动作集合和专门设计的奖励函数，结合MCTS Rollout生成推理轨迹，并利用互恰性验证推理结果，显著提高了SLM在数学和常识推理任务上的准确度。这种方法不需要更强大的模型或微调即可实现性能提升。
来源：https://mp.weixin.qq.com/s/_ETAL-qyBpj5fBii4nZ7DQ

页: [1]

靠浦ai课堂's Archiver

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调