厦门大学和vivo AI lab联合提出一种新的预训练学习率调整策略,该策略在降低42%训练成本的同时,保持了大语言模型(LLMs)的效果。这一成果已发表于AI领域的顶级会议EMNLP2024。研究指出,现有两种训练范式——从头开始预训练(PTFS)和继续预训练(CPT)——各有优劣,前者成本高但性能好,后者成本低但性能差。新策略通过学习率路径切换,实现了性能和成本的平衡。实验结果显示,新策略在保持与PTFS相当性能的同时,将总训练成本降低至58%。
来源:https://mp.weixin.qq.com/s/KR4dZQLVGJiwEkT1OQ0ycg