50s完成7B模型量化，4bit达到新SOTA，大模型低比特量化有新招了

周大发表于 2024-11-8 13:47:47

DuQuant团队的研究入选NeurIPS 2024 Oral Presentation，提出了一种新的量化方法，通过两种正交变换有效减少了大语言模型（LLM）中的outliers现象，达到了4-bit量化的SOTA。实验显示，DuQuant在多个模型和任务上显著提升了量化模型的性能，并且训练速度快，可在50秒内完成7B模型的量化。
来源：https://mp.weixin.qq.com/s/lM4HeylIivW8c2o5f6J8wg

页: [1]

靠浦ai课堂's Archiver

50s完成7B模型量化，4bit达到新SOTA，大模型低比特量化有新招了