周大 发表于 2024-6-19 16:20:29

1块3090就能训7B大模型,山东大学低带宽低显存训练法

山东大学的研究团队提出了一种名为MEFT的新方法,解决了大模型微调中的资源效率问题。在保持性能的同时,MEFT能在3090 GPU上训练7B参数的模型,内存占用比其他PEFT方法减少50%。通过稀疏激活和Key-Experts机制,该方法降低了GPU内存需求,提升了训练效率,为大模型的高效微调提供了新途径。
来源:https://mp.weixin.qq.com/s/S-u2P9sWVNbP_R1MGX6YDg
页: [1]
查看完整版本: 1块3090就能训7B大模型,山东大学低带宽低显存训练法