3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源
HuggingFace 逆向工程并开源了 DeepMind 的研究,展示了通过扩展测试时计算,小模型如 1B 和 3B 的 Llama Instruct 可在 MATH-500 基准上超越 8B 和 70B 模型。主要策略包括自我改进、基于验证器的搜索、Best-of-N 和集束搜索等。多样性验证器树搜索 (DVTS) 进一步提高了简单和中等问题的性能。计算最优扩展策略选择最佳搜索方法和超参数,以达到最佳性能。来源:https://mp.weixin.qq.com/s/E1FaaOurAb-QlCX3BASi9Q
页:
[1]