1块3090就能训7B大模型，山东大学低带宽低显存训练法

周大发表于 2024-6-19 16:20:29

山东大学的研究团队提出了一种名为MEFT的新方法，解决了大模型微调中的资源效率问题。在保持性能的同时，MEFT能在3090 GPU上训练7B参数的模型，内存占用比其他PEFT方法减少50%。通过稀疏激活和Key-Experts机制，该方法降低了GPU内存需求，提升了训练效率，为大模型的高效微调提供了新途径。
来源：https://mp.weixin.qq.com/s/S-u2P9sWVNbP_R1MGX6YDg

页: [1]

靠浦ai课堂's Archiver

1块3090就能训7B大模型，山东大学低带宽低显存训练法