1块3090就能训7B大模型,山东大学低带宽低显存训练法

[复制链接]
周大 发表于 2024-6-19 16:20:29 | 显示全部楼层 |阅读模式
山东大学的研究团队提出了一种名为MEFT的新方法,解决了大模型微调中的资源效率问题。在保持性能的同时,MEFT能在3090 GPU上训练7B参数的模型,内存占用比其他PEFT方法减少50%。通过稀疏激活和Key-Experts机制,该方法降低了GPU内存需求,提升了训练效率,为大模型的高效微调提供了新途径。
来源:https://mp.weixin.qq.com/s/S-u2P9sWVNbP_R1MGX6YDg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-14 15:15 , Processed in 0.295865 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表