Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

[复制链接]
周大 发表于 2025-4-20 15:12:01 | 显示全部楼层 |阅读模式
英伟达发布的Nemotron-H系列模型通过混合Transformer和Mamba架构,在长文本推理速度上较现有模型提升3倍,同时保持高性能。该模型提供8B和56B两种尺寸的开源版本,并采用FP8训练和MiniPuzzle压缩技术进一步优化性能。实验表明,Nemotron-H在多项基准测试中表现优异,尤其在数学推理任务上表现突出。其训练数据涵盖多语言、代码等领域,总量达20万亿个token,FP8训练方案有效降低了内存需求并提升了训练效率。
来源:https://mp.weixin.qq.com/s/B_ZIoOezG_4o_OqBfjuf6Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 09:41 , Processed in 0.258598 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表