Mamba挑战Transformer:新混合架构提升性能与效率

[复制链接]
周大 发表于 2024-7-13 16:22:16 | 显示全部楼层 |阅读模式
英伟达、CMU和普林斯顿的研究对比了Mamba与Transformer的大型预训练模型性能,发现Mamba在某些任务上不敌Transformer。为解决这一问题,研究者提出了Mamba-2-Hybrid混合架构,结合两者的优点,实现了性能和效率的提升,尤其在处理长上下文任务时表现出色,可能为未来模型设计提供新思路。
来源:https://mp.weixin.qq.com/s/omImpaiddmSJ968bCZ8qmw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 03:54 , Processed in 0.296170 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表