周大 发表于 2024-9-20 14:41:58

LLM领域首次实现量化推理自由,效果和性能双SOTA!字节开源ABQ-LLM

字节跳动开源的 ABQ-LLM 通过二值化矩阵乘实现了任意精度组合的矩阵乘,解决了 LLM 量化中的低位量化效果降低和计算效率低下问题。该系统在各类量化配置下达到 SOTA 效果,实现了 1.6 倍的推理加速和 2.7 倍的内存压缩,显著优于其他同类技术。
来源:https://mp.weixin.qq.com/s/UM-VtfeTKaGC2FBKDgrmAA
页: [1]
查看完整版本: LLM领域首次实现量化推理自由,效果和性能双SOTA!字节开源ABQ-LLM