比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
大型语言模型在自然语言处理领域取得重大进展。然而,传统token表意表层限制了其高级推理能力。为此,Meta等机构提出了连续概念混合(CoCoMix)框架,该框架将离散的下一个token预测与连续概念相结合。实验结果表明,CoCoMix采样效率更高,能够减少21.5%训练token且实现与下一个token预测相当的性能,在弱监督到强监督场景中表现出显著改进。此外,CoCoMix还提高了模型的可解释性和可操纵性,为自然语言处理领域的研究提供了新的思路。来源:https://mp.weixin.qq.com/s/nLOXHszn6QQSNhMV-GLhIw
页:
[1]