苹果发现模型蒸馏Scaling Law！教师模型并非越强越好

周大发表于 2025-2-14 20:46:16

苹果最新研究表明大模型蒸馏存在Scaling Law，揭示了学生模型与教师模型能力间的幂律关系。研究指出，教师模型并非越强越好，当其能力远超学生模型时，继续提升性能可能导致学生成绩恶化。该研究还发现了一个转折点d1，两侧分别呈现不同幂律关系。基于此，作者提出了针对不同规模学生模型及预算情况的计算资源分配建议，强调了合理分配资源对提高蒸馏效果的重要性。此外，研究显示当数据量足够大时，直接监督学习可能比知识蒸馏更有效。
来源：https://mp.weixin.qq.com/s/ZziT8caM3HM6czZx7uayJw

页: [1]

靠浦ai课堂's Archiver

苹果发现模型蒸馏Scaling Law！教师模型并非越强越好