AMD跑DeepSeek性能超H200!128并发Token间延迟不超50ms,吞吐量达H200五倍
AMD MI300X在FP8满血R1上性能超越英伟达H200,相同延迟下吞吐量达5倍,相同并发下高出75%。这一成果得益于SGLang开源框架和AITER内核库的支持,后者可显著加速训练与推理任务。第三方测试进一步验证了MI300X的优势,除了首个Token延迟略不稳定外,其余指标均优于H100。此外,AMD通过优化超参数提升了系统效率,展现了其在AI硬件领域的强劲竞争力。来源:https://mp.weixin.qq.com/s/dtw0nXl5WVKeC_nrhUSYkg
页:
[1]