LLM领域首次实现量化推理自由，效果和性能双SOTA！字节开源ABQ-LLM

周大发表于 2024-9-20 14:41:58

字节跳动开源的 ABQ-LLM 通过二值化矩阵乘实现了任意精度组合的矩阵乘，解决了 LLM 量化中的低位量化效果降低和计算效率低下问题。该系统在各类量化配置下达到 SOTA 效果，实现了 1.6 倍的推理加速和 2.7 倍的内存压缩，显著优于其他同类技术。
来源：https://mp.weixin.qq.com/s/UM-VtfeTKaGC2FBKDgrmAA

页: [1]

靠浦ai课堂's Archiver

LLM领域首次实现量化推理自由，效果和性能双SOTA！字节开源ABQ-LLM