3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
HuggingFace 逆向工程并开源了 DeepMind 的研究,展示了通过扩展测试时计算,小模型如 1B 和 3B 的 Llama Instruct 可在 MATH-500 基准上超越 8B 和 70B 模型。主要策略包括自我改进、基于验证器的搜索、Best-of-N 和集束搜索等。多样性验证器树搜索 (DVTS) 进一步提高了简单和中等问题的性能。计算最优扩展策略选择最佳搜索方法和超参数,以达到最佳性能。
来源:https://mp.weixin.qq.com/s/E1FaaOurAb-QlCX3BASi9Q

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 11:45 , Processed in 0.292993 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表