周大 发表于 2025-2-12 14:49:08

7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling

上海AI Lab等机构提出新的Test-Time Scaling (TTS) 方法,使小规模语言模型在数学推理能力上显著超越大规模模型。研究表明,不同规模模型的最佳TTS方法各异:小型模型适合基于搜索的方法,大型模型则更适合BoN。通过MATH-500和AIME24数据集测试,3B Llama3.2超越135倍大的Llama3.1-405B,改善率达487%。DeepSeek蒸馏的Qwen 7B也超过了671B参数的R1满血版。该研究为优化小模型推理能力提供了新思路,但仍需进一步探索其在复杂任务上的应用。
来源:https://mp.weixin.qq.com/s/BUBp2TShir9MRd6iVtFSfw
页: [1]
查看完整版本: 7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling