周大 发表于 2025-4-20 15:12:01

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

英伟达发布的Nemotron-H系列模型通过混合Transformer和Mamba架构,在长文本推理速度上较现有模型提升3倍,同时保持高性能。该模型提供8B和56B两种尺寸的开源版本,并采用FP8训练和MiniPuzzle压缩技术进一步优化性能。实验表明,Nemotron-H在多项基准测试中表现优异,尤其在数学推理任务上表现突出。其训练数据涵盖多语言、代码等领域,总量达20万亿个token,FP8训练方案有效降低了内存需求并提升了训练效率。
来源:https://mp.weixin.qq.com/s/B_ZIoOezG_4o_OqBfjuf6Q
页: [1]
查看完整版本: Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强