DeepSeek V3刷屏,550万元2000张卡做出的开源模型,和OpenAI几亿烧出来的一样好
DeepSeek V3由深度求索公司开发,以较低的训练成本(557万美元)实现了与GPT-4o等顶尖模型相当的性能。它在百科知识、长文本、代码、数学等领域表现出色,并引入了辅助损失自由负载均衡、冗余专家机制等多项创新技术。该模型不仅在性能上逼近闭源模型,还通过系统级优化提升了分布式推理效率,在全球开发者社区中获得高度评价。这标志着中国AI模型开发者在全球竞争中的崛起,表明算力并非唯一决定因素,技术创新同样关键。来源:https://www.chinaz.com/2024/1227/1660777.shtml
页:
[1]