405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

[复制链接]
周大 发表于 2024-11-21 14:30:54 | 显示全部楼层 |阅读模式
斯坦福、MIT等机构推出低秩线性转换方法LoLCATs,实现传统注意力到线性注意力的无缝转移,仅需0.2%的参数更新即可恢复精度。该方法适用于各种量级的Transformer模型,包括405B参数的大模型,线性化后的模型在性能上接近原始模型,且计算复杂度从二次方降至线性。实验结果显示,LoLCATs在多个评估任务中显著提高了线性化模型的质量和训练效率。
来源:https://mp.weixin.qq.com/s/vhHvM87dL5R4DF5RWJOMOQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-26 00:40 , Processed in 0.317117 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表