周大 发表于 2025-3-25 13:53:22

AMD跑DeepSeek性能超H200!128并发Token间延迟不超50ms,吞吐量达H200五倍

AMD MI300X在FP8满血R1上性能超越英伟达H200,相同延迟下吞吐量达5倍,相同并发下高出75%。这一成果得益于SGLang开源框架和AITER内核库的支持,后者可显著加速训练与推理任务。第三方测试进一步验证了MI300X的优势,除了首个Token延迟略不稳定外,其余指标均优于H100。此外,AMD通过优化超参数提升了系统效率,展现了其在AI硬件领域的强劲竞争力。
来源:https://mp.weixin.qq.com/s/dtw0nXl5WVKeC_nrhUSYkg
页: [1]
查看完整版本: AMD跑DeepSeek性能超H200!128并发Token间延迟不超50ms,吞吐量达H200五倍