天下苦英伟达久矣!PyTorch官方免CUDA加速推理,Triton时代要来?
PyTorch官方分享了无CUDA计算方法,并对Triton内核进行了微基准测试。结果显示,在NVIDIA H100和A100 GPU上,Triton实现了CUDA性能的76%-82%。PyTorch团队表示,Triton在不同类型的GPU上提供了更高抽象层,便于大模型运行。未来将进一步优化matmul和flash attention内核,缩小与CUDA的差距。来源:https://mp.weixin.qq.com/s/wSpuqgwGsznJ6VmpmDtS4A
页:
[1]