周大 发表于 2025-1-3 14:57:25

DeepSeek低成本训练大模型引发关注

DeepSeek公司发布6710亿参数的DeepSeek-V3模型,仅用2048块H800显卡、耗时两个月和600万美元完成训练,效率较Meta的Llama 3提升11倍。该模型采用MoE架构、MLA机制和FP8混合精度等创新技术,展示了高效的训练方法。美国对中国实施芯片出口限制,反而促使中国工程师在软件层面创新。DeepSeek-V3的成功引发市场对AI硬件需求的担忧,英伟达股价一度下跌。然而,模型存在争议,有时会声称自己是ChatGPT,这可能与训练数据集或知识蒸馏有关。
来源:https://tech.ifeng.com/c/8fq0l46DtG8
页: [1]
查看完整版本: DeepSeek低成本训练大模型引发关注