周大 发表于 2024-12-27 16:11:31

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅4379万元

中国团队开发的DeepSeek-V3大模型拥有671B参数,吞吐量达每秒60 token。它在数学代码性能上超越GPT-4o,中文能力突出。该模型仅用2048块GPU训练2个月,花费557.6万美元,远低于同级别模型所需资源。DeepSeek-V3在多个基准测试中表现出色,尤其在数学、代码领域刷新纪录。此外,模型和论文完全开源,采用FP8混合精度训练等技术优化训练过程,引入“redundantexpert”概念应对分布式推理挑战。
来源:https://tech.ifeng.com/c/8feRRFt8ZP6
页: [1]
查看完整版本: 中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅4379万元