周大 发表于 2025-5-23 15:30:48

英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生

英伟达借助Blackwell GPU在Llama 4 Maverick模型上实现单用户每秒生成1000个token的新纪录,单服务器吞吐量高达72,000 TPS。通过TensorRT-LLM优化框架、FP8数据格式及CUDA内核优化技术,显著提升推理速度与效率。推测解码技术进一步加速推理过程,确保超大规模模型具备低延迟和高响应性能,满足实时用户体验需求。
来源:https://mp.weixin.qq.com/s/gFkCJpB1HD_rNaBlWnj2fQ
页: [1]
查看完整版本: 英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生