南开大学团队提出LowMemoryBP,有效降低Transformer模型微调显存需求
南开大学徐君团队在ICML 2024会议上发表的最新研究提出了一种名为LowMemoryBP的新方法,该方法通过Approx-BP和MS-BP策略,能够在不降低训练性能的情况下显著减少Transformer模型微调的显存需求。实验表明,这种方法能有效降低ViT、LLaMA等模型的显存占用,最高可达39.47%,同时保持训练速度和精度不变,为大型模型训练提供了一种内存高效的解决方案。来源:https://mp.weixin.qq.com/s/fxG3YIZtB4QqePUmOkxJmQ
页:
[1]