中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅4379万元
中国团队开发的DeepSeek-V3大模型拥有671B参数,吞吐量达每秒60 token。它在数学代码性能上超越GPT-4o,中文能力突出。该模型仅用2048块GPU训练2个月,花费557.6万美元,远低于同级别模型所需资源。DeepSeek-V3在多个基准测试中表现出色,尤其在数学、代码领域刷新纪录。此外,模型和论文完全开源,采用FP8混合精度训练等技术优化训练过程,引入“redundantexpert”概念应对分布式推理挑战。来源:https://tech.ifeng.com/c/8feRRFt8ZP6
页:
[1]