陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

[复制链接]
周大 发表于 2025-1-7 15:55:02 | 显示全部楼层 |阅读模式
陈丹琦团队提出了名为元数据调节然后冷却(MeCo)的大模型预训练新方法。该方法通过将元数据与文档拼接进行训练,并在最后10%的训练步骤采用冷却阶段,以加快训练速度且不增加计算开销。实验结果表明,在减少33%训练数据的情况下,MeCo仍能达到与标准预训练模型相同的平均下游性能,尤其对600M至8B规模的模型效果显著。此外,MeCo还开启了引导语言模型的新方法,提高了常识性任务的性能,降低了毒性生成的可能性。这项研究由普林斯顿NLP小组完成,展示了其在自然语言处理领域的创新成果。
来源:https://mp.weixin.qq.com/s/l-dlYy3cECuVmMTvYLuztg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 01:05 , Processed in 0.297781 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表