YOCO架构：革新大模型显存管理

周大发表于 2024-5-12 15:50:27

微软和清华大学的研究团队近期推出了一种名为YOCO的新型Decoder-Decoder架构，旨在解决大语言模型的GPU显存占用问题。YOCO通过一次键值对缓存，显著降低了显存需求，同时保持高效的全局注意力能力。实验显示，YOCO在处理长上下文时，相比于标准Transformer，显存占用减少了6.4倍，预填充延迟降低30.3倍，吞吐量提升至9.6倍。
来源：https://mp.weixin.qq.com/s/aEi-GAmv_kzct1Pv9fjXMg

		自动登录	找回密码
密码			立即注册

课程导航

YOCO架构：革新大模型显存管理