DCFormer:魔改注意力,提升Transformer性能新方法
彩云科技团队在ICML 2024会议上提出了一项创新——DCFormer,它通过动态组合多头注意力(DCMHA)改进Transformer架构,使小型模型的性能可与两倍规模的模型匹敌。研究表明,DCFormer在表达能力、规模扩展性及下游任务表现上超越了现有模型,为Transformer架构的优化提供了新方向。来源:https://mp.weixin.qq.com/s/MdXJaurs2Yn59In4FQyVpQ
页:
[1]