英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生
英伟达借助Blackwell GPU在Llama 4 Maverick模型上实现单用户每秒生成1000个token的新纪录,单服务器吞吐量高达72,000 TPS。通过TensorRT-LLM优化框架、FP8数据格式及CUDA内核优化技术,显著提升推理速度与效率。推测解码技术进一步加速推理过程,确保超大规模模型具备低延迟和高响应性能,满足实时用户体验需求。来源:https://mp.weixin.qq.com/s/gFkCJpB1HD_rNaBlWnj2fQ
页:
[1]