DeepSeek绕过CUDA用PTX优化GPU性能

周大发表于 2025-1-30 11:12:08

DeepSeek团队绕过CUDA，直接针对英伟达GPU低级汇编语言PTX进行优化，在2048个H800 GPU集群上训练出6710亿参数的MoE语言模型，效率提升10倍。通过细粒度优化和重新配置GPU核心计算单元，实现了性能最大化。尽管这一突破可能影响英伟达等公司的销售业绩，但行业普遍认为CUDA的技术壁垒仍然存在。对于特定需求场景，深入到PTX层面优化可带来显著性能提升，但仍需面对复杂性和维护难度。
来源：https://mp.weixin.qq.com/s/p-bAIQnzdLGEZQa9EAq3IA

页: [1]

靠浦ai课堂's Archiver

DeepSeek绕过CUDA用PTX优化GPU性能