周大 发表于 2024-5-13 15:52:33

字节开源2-bit量化模型思路,精度齐平fp16

字节跳动语音团队创新性地提出“decoupleQ”模型量化方法,以数学优化解决深度学习大模型的高推理成本问题。不同于传统量化导致的精度损失,“decoupleQ”将参数解耦,保持低比特下的高精度。实验结果显示,这种方法在ASR和大模型量化上表现出色,已在多个产品中应用,实现性能提升和显存优化。
来源:https://mp.weixin.qq.com/s/tv4H0LA-e0qzX33NIWCdAg
页: [1]
查看完整版本: 字节开源2-bit量化模型思路,精度齐平fp16