苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
苹果最新研究表明大模型蒸馏存在Scaling Law,揭示了学生模型与教师模型能力间的幂律关系。研究指出,教师模型并非越强越好,当其能力远超学生模型时,继续提升性能可能导致学生成绩恶化。该研究还发现了一个转折点d1,两侧分别呈现不同幂律关系。基于此,作者提出了针对不同规模学生模型及预算情况的计算资源分配建议,强调了合理分配资源对提高蒸馏效果的重要性。此外,研究显示当数据量足够大时,直接监督学习可能比知识蒸馏更有效。来源:https://mp.weixin.qq.com/s/ZziT8caM3HM6czZx7uayJw
页:
[1]