中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅4379万元

[复制链接]
周大 发表于 2024-12-27 16:11:31 | 显示全部楼层 |阅读模式
中国团队开发的DeepSeek-V3大模型拥有671B参数,吞吐量达每秒60 token。它在数学代码性能上超越GPT-4o,中文能力突出。该模型仅用2048块GPU训练2个月,花费557.6万美元,远低于同级别模型所需资源。DeepSeek-V3在多个基准测试中表现出色,尤其在数学、代码领域刷新纪录。此外,模型和论文完全开源,采用FP8混合精度训练等技术优化训练过程,引入“redundantexpert”概念应对分布式推理挑战。
来源:https://tech.ifeng.com/c/8feRRFt8ZP6

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 11:56 , Processed in 0.280003 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表