周大 发表于 2025-8-26 14:01:47

刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2

英伟达最新推出的小模型系列Jet-Nemotron(2B/4B)采用两项核心技术——后神经架构搜索(PostNAS)和新型线性注意力模块JetBlock,实现了在数学、代码、常识、检索及长上下文等多维度性能超越Qwen3、Gemma3、Llama3.2等主流模型。在H100 GPU上,其推理吞吐量最高提升达53.6倍,尤其在长上下文场景中解码速度提升显著。Jet-Nemotron-4B在多个基准测试中表现接近满格,Jet-Nemotron-2B和-4B分别比Qwen3-1.7B快21倍和47倍。英伟达通过PostNAS优化模型结构,JetBlock提升线性注意力性能,展示了其在高效小模型方向的持续布局。
来源:https://mp.weixin.qq.com/s/8ZbWGnogg40sHknVBWHH1Q
页: [1]
查看完整版本: 刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2