陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

周大发表于 2025-1-7 15:55:02

陈丹琦团队提出了名为元数据调节然后冷却（MeCo）的大模型预训练新方法。该方法通过将元数据与文档拼接进行训练，并在最后10%的训练步骤采用冷却阶段，以加快训练速度且不增加计算开销。实验结果表明，在减少33%训练数据的情况下，MeCo仍能达到与标准预训练模型相同的平均下游性能，尤其对600M至8B规模的模型效果显著。此外，MeCo还开启了引导语言模型的新方法，提高了常识性任务的性能，降低了毒性生成的可能性。这项研究由普林斯顿NLP小组完成，展示了其在自然语言处理领域的创新成果。
来源：https://mp.weixin.qq.com/s/l-dlYy3cECuVmMTvYLuztg

页: [1]

靠浦ai课堂's Archiver

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减