DeepSeek低成本训练大模型引发关注

周大发表于 2025-1-3 14:57:25

DeepSeek公司发布6710亿参数的DeepSeek-V3模型，仅用2048块H800显卡、耗时两个月和600万美元完成训练，效率较Meta的Llama 3提升11倍。该模型采用MoE架构、MLA机制和FP8混合精度等创新技术，展示了高效的训练方法。美国对中国实施芯片出口限制，反而促使中国工程师在软件层面创新。DeepSeek-V3的成功引发市场对AI硬件需求的担忧，英伟达股价一度下跌。然而，模型存在争议，有时会声称自己是ChatGPT，这可能与训练数据集或知识蒸馏有关。
来源：https://tech.ifeng.com/c/8fq0l46DtG8

页: [1]

靠浦ai课堂's Archiver

DeepSeek低成本训练大模型引发关注