天下苦英伟达久矣!PyTorch官方免CUDA加速推理,Triton时代要来?

[复制链接]
周大 发表于 2024-9-9 14:50:23 | 显示全部楼层 |阅读模式
PyTorch官方分享了无CUDA计算方法,并对Triton内核进行了微基准测试。结果显示,在NVIDIA H100和A100 GPU上,Triton实现了CUDA性能的76%-82%。PyTorch团队表示,Triton在不同类型的GPU上提供了更高抽象层,便于大模型运行。未来将进一步优化matmul和flash attention内核,缩小与CUDA的差距。
来源:https://mp.weixin.qq.com/s/wSpuqgwGsznJ6VmpmDtS4A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 13:15 , Processed in 0.293320 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表