1-bit大模型还能再突破!新一代BitNet架构启用4位激活值

[复制链接]
周大 发表于 2024-12-5 14:13:47 | 显示全部楼层 |阅读模式
BitNet团队发布了新一代架构BitNet a4.8,支持1 bit大模型的4位激活值和3 bit KV缓存。通过混合量化和稀疏化策略,有效减轻量化误差。实验显示,BitNet a4.8在相同训练成本下性能与前代相当,但推理速度更快,仅激活55%的参数,进一步提升大规模LLM部署和推理效率。
来源:https://mp.weixin.qq.com/s/aw3iXwNVypyrq7jnAgGoug

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-24 00:11 , Processed in 0.249797 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表