YOCO架构:革新大模型显存管理

[复制链接]
周大 发表于 2024-5-12 15:50:27 | 显示全部楼层 |阅读模式
微软和清华大学的研究团队近期推出了一种名为YOCO的新型Decoder-Decoder架构,旨在解决大语言模型的GPU显存占用问题。YOCO通过一次键值对缓存,显著降低了显存需求,同时保持高效的全局注意力能力。实验显示,YOCO在处理长上下文时,相比于标准Transformer,显存占用减少了6.4倍,预填充延迟降低30.3倍,吞吐量提升至9.6倍。
来源:https://mp.weixin.qq.com/s/aEi-GAmv_kzct1Pv9fjXMg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 02:33 , Processed in 0.285770 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表