周大 发表于 2024-7-13 16:22:16

Mamba挑战Transformer:新混合架构提升性能与效率

英伟达、CMU和普林斯顿的研究对比了Mamba与Transformer的大型预训练模型性能,发现Mamba在某些任务上不敌Transformer。为解决这一问题,研究者提出了Mamba-2-Hybrid混合架构,结合两者的优点,实现了性能和效率的提升,尤其在处理长上下文任务时表现出色,可能为未来模型设计提供新思路。
来源:https://mp.weixin.qq.com/s/omImpaiddmSJ968bCZ8qmw
页: [1]
查看完整版本: Mamba挑战Transformer:新混合架构提升性能与效率