AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍

周大发表于 2025-3-25 13:53:22

AMD MI300X在FP8满血R1上性能超越英伟达H200，相同延迟下吞吐量达5倍，相同并发下高出75%。这一成果得益于SGLang开源框架和AITER内核库的支持，后者可显著加速训练与推理任务。第三方测试进一步验证了MI300X的优势，除了首个Token延迟略不稳定外，其余指标均优于H100。此外，AMD通过优化超参数提升了系统效率，展现了其在AI硬件领域的强劲竞争力。
来源：https://mp.weixin.qq.com/s/dtw0nXl5WVKeC_nrhUSYkg

页: [1]

靠浦ai课堂's Archiver

AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍