3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

周大发表于 2024-12-18 14:55:49

HuggingFace 逆向工程并开源了 DeepMind 的研究，展示了通过扩展测试时计算，小模型如 1B 和 3B 的 Llama Instruct 可在 MATH-500 基准上超越 8B 和 70B 模型。主要策略包括自我改进、基于验证器的搜索、Best-of-N 和集束搜索等。多样性验证器树搜索 (DVTS) 进一步提高了简单和中等问题的性能。计算最优扩展策略选择最佳搜索方法和超参数，以达到最佳性能。
来源：https://mp.weixin.qq.com/s/E1FaaOurAb-QlCX3BASi9Q

页: [1]

靠浦ai课堂's Archiver

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源