Flash Attention作者最新播客:英伟达GPU统治三年内将终结

[复制链接]
周大 发表于 2025-9-29 14:13:56 | 显示全部楼层 |阅读模式
Flash Attention作者Tri Dao指出,近年来AI推理成本已下降约100倍,主要得益于MoE架构、模型量化和软硬件协同优化。他预测未来2-3年英伟达90%的市场主导地位将被打破,AI硬件生态趋于多样化。随着工作负载分化为低延迟、高吞吐和交互式三类,芯片设计需针对性优化。尽管推理效率仍有约10倍提升空间,但架构稳定性和跨平台抽象仍是挑战。同时,代理型AI与实时视频生成或成新趋势,而数据尤其是合成数据的重要性被低估。
来源:https://mp.weixin.qq.com/s/GYQ8BFHig1A8EQCR8PmrIQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-9 23:54 , Processed in 0.300378 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表