刚刚，英伟达新模型上线！4B推理狂飙53倍，全新注意力架构超越Mamba 2

周大发表于 2025-8-26 14:01:47

英伟达最新推出的小模型系列Jet-Nemotron（2B/4B）采用两项核心技术——后神经架构搜索（PostNAS）和新型线性注意力模块JetBlock，实现了在数学、代码、常识、检索及长上下文等多维度性能超越Qwen3、Gemma3、Llama3.2等主流模型。在H100 GPU上，其推理吞吐量最高提升达53.6倍，尤其在长上下文场景中解码速度提升显著。Jet-Nemotron-4B在多个基准测试中表现接近满格，Jet-Nemotron-2B和-4B分别比Qwen3-1.7B快21倍和47倍。英伟达通过PostNAS优化模型结构，JetBlock提升线性注意力性能，展示了其在高效小模型方向的持续布局。
来源：https://mp.weixin.qq.com/s/8ZbWGnogg40sHknVBWHH1Q

		自动登录	找回密码
密码			立即注册

课程导航

刚刚，英伟达新模型上线！4B推理狂飙53倍，全新注意力架构超越Mamba 2