DeepSeek绕过CUDA用PTX优化GPU性能

[复制链接]
周大 发表于 2025-1-30 11:12:08 | 显示全部楼层 |阅读模式
DeepSeek团队绕过CUDA,直接针对英伟达GPU低级汇编语言PTX进行优化,在2048个H800 GPU集群上训练出6710亿参数的MoE语言模型,效率提升10倍。通过细粒度优化和重新配置GPU核心计算单元,实现了性能最大化。尽管这一突破可能影响英伟达等公司的销售业绩,但行业普遍认为CUDA的技术壁垒仍然存在。对于特定需求场景,深入到PTX层面优化可带来显著性能提升,但仍需面对复杂性和维护难度。
来源:https://mp.weixin.qq.com/s/p-bAIQnzdLGEZQa9EAq3IA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 07:29 , Processed in 0.287111 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表