中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅4379万元

周大发表于 2024-12-27 16:11:31

中国团队开发的DeepSeek-V3大模型拥有671B参数，吞吐量达每秒60 token。它在数学代码性能上超越GPT-4o，中文能力突出。该模型仅用2048块GPU训练2个月，花费557.6万美元，远低于同级别模型所需资源。DeepSeek-V3在多个基准测试中表现出色，尤其在数学、代码领域刷新纪录。此外，模型和论文完全开源，采用FP8混合精度训练等技术优化训练过程，引入“redundantexpert”概念应对分布式推理挑战。
来源：https://tech.ifeng.com/c/8feRRFt8ZP6

页: [1]

靠浦ai课堂's Archiver

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅4379万元