大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
中兴通讯无线研究院「大模型深潜」团队提出了一种基于 LLM 自适应题目难度分级的 CoT 数据生成框架,旨在解决小模型在长链推理任务中的瓶颈问题。该方法通过动态评估模型推理能力,构建匹配的自适应题库,仅需约 2k 高质量 CoT 样本即可显著提升性能,大幅降低数据与算力成本。实验结果显示,新方法在数学推理(如 MATH500 和 AIME24)和代码生成(LiveCodeBench)任务中表现优异,性能较传统方法提升 6.66%-26.7%。此外,该方法对不同规模模型具有良好的泛化性,为资源受限环境下的小参数 LLM 提供了新路径。未来,团队计划进一步结合强化学习挖掘深层推理能力。
来源:https://mp.weixin.qq.com/s/OYEQIUjxMZ-_QU4ls1FYtA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 09:10 , Processed in 0.297830 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表