Transformer+Mamba黄金组合！长文推理性能飙升3倍，性能还更强

周大发表于 2025-4-20 15:12:01

英伟达发布的Nemotron-H系列模型通过混合Transformer和Mamba架构，在长文本推理速度上较现有模型提升3倍，同时保持高性能。该模型提供8B和56B两种尺寸的开源版本，并采用FP8训练和MiniPuzzle压缩技术进一步优化性能。实验表明，Nemotron-H在多项基准测试中表现优异，尤其在数学推理任务上表现突出。其训练数据涵盖多语言、代码等领域，总量达20万亿个token，FP8训练方案有效降低了内存需求并提升了训练效率。
来源：https://mp.weixin.qq.com/s/B_ZIoOezG_4o_OqBfjuf6Q

页: [1]

靠浦ai课堂's Archiver

Transformer+Mamba黄金组合！长文推理性能飙升3倍，性能还更强