中国开源大模型DeepSeek-v3创新突破

周大发表于 2024-12-30 15:22:15

中国开源大模型DeepSeek-v3由OpenAI成员Andrej Karpathy推荐，该模型仅用280万小时GPU算力训练，成本较Llama-3405B节省11倍。其在多个基准测试中表现优异，成为最强开源大模型之一。DeepSeek-v3采用MLA和MoE架构，分别解决推理过程中的内存占用和专家负载不均衡问题。尽管面临芯片供应限制，中国依靠智慧与创新，在AI领域取得重大突破，展示了资源限制下技术创新的强大动力。
来源：https://www.chinaz.com/2024/1230/1661112.shtml

页: [1]

靠浦ai课堂's Archiver

中国开源大模型DeepSeek-v3创新突破