两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

[复制链接]
周大 发表于 2024-8-16 15:53:07 | 显示全部楼层 |阅读模式
微软亚洲研究院与哈佛大学的研究团队开发了一种名为Self-play muTuAl Reasoning(rStar)的新方法,旨在提升小型语言模型(SLM)的推理能力。rStar通过丰富多样的推理动作集合和专门设计的奖励函数,结合MCTS Rollout生成推理轨迹,并利用互恰性验证推理结果,显著提高了SLM在数学和常识推理任务上的准确度。这种方法不需要更强大的模型或微调即可实现性能提升。
来源:https://mp.weixin.qq.com/s/_ETAL-qyBpj5fBii4nZ7DQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 22:10 , Processed in 0.280120 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表