DeepSeek绕过CUDA用PTX优化GPU性能
DeepSeek团队绕过CUDA,直接针对英伟达GPU低级汇编语言PTX进行优化,在2048个H800 GPU集群上训练出6710亿参数的MoE语言模型,效率提升10倍。通过细粒度优化和重新配置GPU核心计算单元,实现了性能最大化。尽管这一突破可能影响英伟达等公司的销售业绩,但行业普遍认为CUDA的技术壁垒仍然存在。对于特定需求场景,深入到PTX层面优化可带来显著性能提升,但仍需面对复杂性和维护难度。来源:https://mp.weixin.qq.com/s/p-bAIQnzdLGEZQa9EAq3IA
页:
[1]