DeepSeek低成本训练大模型引发关注

[复制链接]
周大 发表于 2025-1-3 14:57:25 | 显示全部楼层 |阅读模式
DeepSeek公司发布6710亿参数的DeepSeek-V3模型,仅用2048块H800显卡、耗时两个月和600万美元完成训练,效率较Meta的Llama 3提升11倍。该模型采用MoE架构、MLA机制和FP8混合精度等创新技术,展示了高效的训练方法。美国对中国实施芯片出口限制,反而促使中国工程师在软件层面创新。DeepSeek-V3的成功引发市场对AI硬件需求的担忧,英伟达股价一度下跌。然而,模型存在争议,有时会声称自己是ChatGPT,这可能与训练数据集或知识蒸馏有关。
来源:https://tech.ifeng.com/c/8fq0l46DtG8

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 06:43 , Processed in 0.299587 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表