微软再放LLM量化大招!原生4bit量化,成本暴减,性能几乎0损失
微软亚洲研究院近日发布了新一代原生1bit大模型BitNet v2,相较于前作BitNet b1.58,新版本在性能几乎无损失的前提下,大幅降低了内存占用和计算成本。BitNet v2的核心创新在于引入H-BitLinear模块,通过在线Hadamard变换解决激活值异常分布问题,成功实现1比特LLMs的原生4比特激活值量化。得益于下一代GPU对4比特计算的支持,BitNet v2在批处理推理场景中表现出更高的效率。实验结果表明,BitNet v2不仅在性能上与BitNet a4.8相当,还全面超越了SpinQuant和QuaRot等后训练量化方法。这一进展为大规模模型的高效部署提供了重要技术支持。来源:https://mp.weixin.qq.com/s/CafL3szFrBMuISRG0GUpWQ
页:
[1]