字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
ByteDance Seed 团队提出 PHD-Transformer,通过创新的 KV 缓存管理和滑动窗口注意力机制(PHD-SWA 和 PHD-CSWA),解决了传统 token 重复方法带来的内存和速度问题。该方法在保持原始 transformer KV 缓存大小的同时,实现了高效的长度扩展。实验结果显示,PHD-CSWA 在多个基准测试中平均提升了 1.5%-2.0% 的准确率,并显著降低了训练损失。来源:https://mp.weixin.qq.com/s/Bkz3-ws2YFb4cr5q5sYyzQ
页:
[1]