斯坦福华人团队用纯CUDA-C编写AI内核,性能超越PyTorch,引爆技术圈
斯坦福大学华人团队通过纯CUDA-C编写AI生成内核,在多项测试中超越了PyTorch的专家优化内核。该团队由Anne Ouyang、Azalia Mirhoseini和Percy Liang组成,采用KernelBench任务设置,专注于FP32精度优化。研究引入了自然语言推理和分支扩展方法,显著提升了优化多样性与效率。具体优化策略包括内存访问优化、延迟隐藏及数据类型调整等。实验结果显示,Conv2D内核性能达到了PyTorch参考实现的179.9%,其他算子如Softmax和LayerNorm也有显著提升。这一成果登上Hacker News热榜,引发了关于AI优化潜力的广泛讨论。来源:https://tech.ifeng.com/c/8jnncyGWJIc
页:
[1]