7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling

[复制链接]
周大 发表于 2025-2-12 14:49:08 | 显示全部楼层 |阅读模式
上海AI Lab等机构提出新的Test-Time Scaling (TTS) 方法,使小规模语言模型在数学推理能力上显著超越大规模模型。研究表明,不同规模模型的最佳TTS方法各异:小型模型适合基于搜索的方法,大型模型则更适合BoN。通过MATH-500和AIME24数据集测试,3B Llama3.2超越135倍大的Llama3.1-405B,改善率达487%。DeepSeek蒸馏的Qwen 7B也超过了671B参数的R1满血版。该研究为优化小模型推理能力提供了新思路,但仍需进一步探索其在复杂任务上的应用。
来源:https://mp.weixin.qq.com/s/BUBp2TShir9MRd6iVtFSfw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-18 04:34 , Processed in 0.280181 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表