周大 发表于 2024-8-2 14:33:36

单卡搞定Llama 3.1 405B,让大模型轻松瘦身!

北航、商汤、南洋理工等团队合作研发的大模型压缩工具LLMC,成功解决了Llama-3.1的405B版本模型内存需求高达900GB的问题,使其能在80G A100上运行。研究显示,该模型的量化精度下降与激活张量中的离群值有关。LLMC工具支持多种压缩算法,能够有效抑制离群值,提高量化精度,具备高扩展性和全面评估能力。
来源:https://mp.weixin.qq.com/s/Qm_NkCyJ1m4iUlXfwwGVXg
页: [1]
查看完整版本: 单卡搞定Llama 3.1 405B,让大模型轻松瘦身!