小模型指导大模型!田渊栋等爆锤蒸馏:新方法更高效、更透明、更可控
Meta团队提出了一种基于连续概念的语言建模新方法CoCoMix,突破传统“下一个token预测”范式。该方法利用稀疏自编码器捕捉高层次语义概念,在不同规模模型上展现出优越性能。与传统方法相比,CoCoMix减少了21.5%的训练数据量,并能在弱监督场景下从小模型提取概念指导大模型训练。此外,它还提高了模型的可解释性和可控性,为语言模型的发展提供了新的思路。来源:https://mp.weixin.qq.com/s/V-zQgo-xc0aDBC4hHSkFaw
页:
[1]