字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

[复制链接]
周大 发表于 2025-4-28 14:45:43 | 显示全部楼层 |阅读模式
ByteDance Seed 团队提出 PHD-Transformer,通过创新的 KV 缓存管理和滑动窗口注意力机制(PHD-SWA 和 PHD-CSWA),解决了传统 token 重复方法带来的内存和速度问题。该方法在保持原始 transformer KV 缓存大小的同时,实现了高效的长度扩展。实验结果显示,PHD-CSWA 在多个基准测试中平均提升了 1.5%-2.0% 的准确率,并显著降低了训练损失。
来源:https://mp.weixin.qq.com/s/Bkz3-ws2YFb4cr5q5sYyzQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-21 11:17 , Processed in 0.286419 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表