南开大学团队提出LowMemoryBP,有效降低Transformer模型微调显存需求

[复制链接]
周大 发表于 2024-7-12 16:28:11 | 显示全部楼层 |阅读模式
南开大学徐君团队在ICML 2024会议上发表的最新研究提出了一种名为LowMemoryBP的新方法,该方法通过Approx-BP和MS-BP策略,能够在不降低训练性能的情况下显著减少Transformer模型微调的显存需求。实验表明,这种方法能有效降低ViT、LLaMA等模型的显存占用,最高可达39.47%,同时保持训练速度和精度不变,为大型模型训练提供了一种内存高效的解决方案。
来源:https://mp.weixin.qq.com/s/fxG3YIZtB4QqePUmOkxJmQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 02:05 , Processed in 0.290418 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表