苹果发现模型蒸馏Scaling Law!教师模型并非越强越好

[复制链接]
周大 发表于 2025-2-14 20:46:16 | 显示全部楼层 |阅读模式
苹果最新研究表明大模型蒸馏存在Scaling Law,揭示了学生模型与教师模型能力间的幂律关系。研究指出,教师模型并非越强越好,当其能力远超学生模型时,继续提升性能可能导致学生成绩恶化。该研究还发现了一个转折点d1,两侧分别呈现不同幂律关系。基于此,作者提出了针对不同规模学生模型及预算情况的计算资源分配建议,强调了合理分配资源对提高蒸馏效果的重要性。此外,研究显示当数据量足够大时,直接监督学习可能比知识蒸馏更有效。
来源:https://mp.weixin.qq.com/s/ZziT8caM3HM6czZx7uayJw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-15 00:41 , Processed in 0.285339 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表