灾难性过度训练:预训练token越多效果越差

[复制链接]
周大 发表于 6 天前 | 显示全部楼层 |阅读模式
来自CMU、斯坦福等名校的研究团队发现,语言模型预训练并非token数量越多越好。研究提出“灾难性过度训练”现象,即过多预训练可能导致微调后性能下降。实验显示,3T tokens预训练模型表现与1.5T tokens模型相近,且在指令微调和多模态微调中均观察到类似问题。高斯噪声实验表明,后期模型对扰动更敏感。理论分析揭示,延长预训练会增加模型敏感性,最终损害性能。这一发现挑战了传统认知,并为优化预训练策略提供了新思路。
来源:https://mp.weixin.qq.com/s/ddsGATwCerCFkr_cJ-SuiA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 07:11 , Processed in 0.272943 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表