腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?

[复制链接]
周大 发表于 2025-3-24 14:49:33 | 显示全部楼层 |阅读模式
腾讯和英伟达相继推出基于Mamba-Transformer混合架构的深度学习模型。腾讯的混元T1和英伟达的Nemotron-H系列,均通过融合Mamba与Transformer架构,大幅提升了推理速度并降低了计算复杂度和内存占用。其中,混元T1实现首字秒出,吐字速度最快可达80 token/s;Nemotron-H的速度为同体量竞品三倍。此外,STORM和Vamba等模型在视频理解等多模态任务中展现出高效处理长序列的优势,表明此类混合架构正推动AI大模型向更广泛应用迈进。
来源:https://mp.weixin.qq.com/s/KWCE3mxZeWchpDM9YmxpnQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 07:54 , Processed in 0.293396 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表