周大 发表于 2025-1-7 15:55:02

陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队提出了名为元数据调节然后冷却(MeCo)的大模型预训练新方法。该方法通过将元数据与文档拼接进行训练,并在最后10%的训练步骤采用冷却阶段,以加快训练速度且不增加计算开销。实验结果表明,在减少33%训练数据的情况下,MeCo仍能达到与标准预训练模型相同的平均下游性能,尤其对600M至8B规模的模型效果显著。此外,MeCo还开启了引导语言模型的新方法,提高了常识性任务的性能,降低了毒性生成的可能性。这项研究由普林斯顿NLP小组完成,展示了其在自然语言处理领域的创新成果。
来源:https://mp.weixin.qq.com/s/l-dlYy3cECuVmMTvYLuztg
页: [1]
查看完整版本: 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减