周大 发表于 6 天前

灾难性过度训练:预训练token越多效果越差

来自CMU、斯坦福等名校的研究团队发现,语言模型预训练并非token数量越多越好。研究提出“灾难性过度训练”现象,即过多预训练可能导致微调后性能下降。实验显示,3T tokens预训练模型表现与1.5T tokens模型相近,且在指令微调和多模态微调中均观察到类似问题。高斯噪声实验表明,后期模型对扰动更敏感。理论分析揭示,延长预训练会增加模型敏感性,最终损害性能。这一发现挑战了传统认知,并为优化预训练策略提供了新思路。
来源:https://mp.weixin.qq.com/s/ddsGATwCerCFkr_cJ-SuiA
页: [1]
查看完整版本: 灾难性过度训练:预训练token越多效果越差