FP8训练新范式:减少40%显存占用,训练速度提高1.4倍
来自伯克利、英伟达、MIT和清华的研究者提出了显存高效的FP8训练方法COAT。该方法通过FP8量化压缩优化器状态和激活值,在多个任务中实现了端到端内存占用减少1.54倍,训练速度提高1.43倍,同时保持模型精度。此外,COAT引入了动态范围扩展和混合粒度FP8精度流等创新技术,有效解决了量化误差和内存占用问题。值得注意的是,COAT的训练代码已完全开源,为大规模模型训练提供了实用解决方案。来源:https://mp.weixin.qq.com/s/na86HSj92MCyvQTzVK_H5g
页:
[1]