斯坦福意外用AI生成超强CUDA内核,性能碾压PyTorch,华人主创团队成果亮眼
斯坦福团队意外发现AI生成的内核性能超越人类优化,部分操作(如层归一化)性能提升近400%,在NVIDIA L40S GPU上显著优于PyTorch。研究通过语言推理和多分支探索增强搜索多样性,避免局部最优,使用OpenAI o3和Gemini 2.5 Pro完成优化。优化策略涵盖内存访问、异步操作等,与人类经验一致。尽管仍有优化空间,但该方法展示了巨大潜力,表明聪明的搜索策略可能替代大规模再训练。来源:https://mp.weixin.qq.com/s/LFZhiacSqkaTkuMHWdzE1A
页:
[1]