微软再放LLM量化大招！原生4bit量化，成本暴减，性能几乎0损失

周大发表于 2025-6-1 14:24:02

微软亚洲研究院近日发布了新一代原生1bit大模型BitNet v2，相较于前作BitNet b1.58，新版本在性能几乎无损失的前提下，大幅降低了内存占用和计算成本。BitNet v2的核心创新在于引入H-BitLinear模块，通过在线Hadamard变换解决激活值异常分布问题，成功实现1比特LLMs的原生4比特激活值量化。得益于下一代GPU对4比特计算的支持，BitNet v2在批处理推理场景中表现出更高的效率。实验结果表明，BitNet v2不仅在性能上与BitNet a4.8相当，还全面超越了SpinQuant和QuaRot等后训练量化方法。这一进展为大规模模型的高效部署提供了重要技术支持。
来源：https://mp.weixin.qq.com/s/CafL3szFrBMuISRG0GUpWQ

页: [1]

靠浦ai课堂's Archiver

微软再放LLM量化大招！原生4bit量化，成本暴减，性能几乎0损失