刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2

[复制链接]
周大 发表于 2025-8-26 14:01:47 | 显示全部楼层 |阅读模式
英伟达最新推出的小模型系列Jet-Nemotron(2B/4B)采用两项核心技术——后神经架构搜索(PostNAS)和新型线性注意力模块JetBlock,实现了在数学、代码、常识、检索及长上下文等多维度性能超越Qwen3、Gemma3、Llama3.2等主流模型。在H100 GPU上,其推理吞吐量最高提升达53.6倍,尤其在长上下文场景中解码速度提升显著。Jet-Nemotron-4B在多个基准测试中表现接近满格,Jet-Nemotron-2B和-4B分别比Qwen3-1.7B快21倍和47倍。英伟达通过PostNAS优化模型结构,JetBlock提升线性注意力性能,展示了其在高效小模型方向的持续布局。
来源:https://mp.weixin.qq.com/s/8ZbWGnogg40sHknVBWHH1Q

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:44 , Processed in 0.275461 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表