天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？

周大发表于 2024-9-9 14:50:23

PyTorch官方分享了无CUDA计算方法，并对Triton内核进行了微基准测试。结果显示，在NVIDIA H100和A100 GPU上，Triton实现了CUDA性能的76%-82%。PyTorch团队表示，Triton在不同类型的GPU上提供了更高抽象层，便于大模型运行。未来将进一步优化matmul和flash attention内核，缩小与CUDA的差距。
来源：https://mp.weixin.qq.com/s/wSpuqgwGsznJ6VmpmDtS4A

页: [1]

靠浦ai课堂's Archiver

天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？