周大 发表于 2025-4-9 14:13:14

英伟达开源Llama Nemotron-253B推理模型

英伟达开源Llama Nemotron-253B推理模型,参数量253B,基于Llama-3.1-405B微调,在数学与科学领域表现卓越,仅用一半参数直逼DeepSeek R1,吞吐量提升4倍。该模型支持128K token上下文长度,采用测试时Scaling技术优化推理性能,并通过系统提示词切换推理模式。Llama Nemotron系列涵盖Nano、Super和Ultra三种规模,适配多场景需求,助力复杂任务解决。
来源:https://mp.weixin.qq.com/s/QbUTBKG9vrIVTA-6qII2gg
页: [1]
查看完整版本: 英伟达开源Llama Nemotron-253B推理模型