大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
中兴通讯无线研究院「大模型深潜」团队提出了一种基于 LLM 自适应题目难度分级的 CoT 数据生成框架,旨在解决小模型在长链推理任务中的瓶颈问题。该方法通过动态评估模型推理能力,构建匹配的自适应题库,仅需约 2k 高质量 CoT 样本即可显著提升性能,大幅降低数据与算力成本。实验结果显示,新方法在数学推理(如 MATH500 和 AIME24)和代码生成(LiveCodeBench)任务中表现优异,性能较传统方法提升 6.66%-26.7%。此外,该方法对不同规模模型具有良好的泛化性,为资源受限环境下的小参数 LLM 提供了新路径。未来,团队计划进一步结合强化学习挖掘深层推理能力。来源:https://mp.weixin.qq.com/s/OYEQIUjxMZ-_QU4ls1FYtA
页:
[1]