全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

周大发表于 2025-9-12 14:31:54

阿里通义团队发布并开源新一代大语言模型架构 Qwen3-Next，总参数量 800 亿，推理时仅激活 30 亿参数，性能媲美 Qwen3 旗舰版 235B 模型，并超越 Gemini-2.5-Flash-Thinking。该模型采用混合注意力机制、高稀疏 MoE 架构及多 token 预测机制，在训练效率、推理吞吐和长上下文处理方面实现重大突破。与 Qwen3-32B 相比，在 4k 上下文下推理吞吐提升近 4–7 倍，32k 上下文下提升达十倍以上，训练成本仅为前者的十分之一。Qwen3-Next 在多个权威评测中表现优异，尤其在 AIME25 数学推理中得分 87.8，模型已在 Qwen.ai 和 HuggingFace 上线。
来源：https://mp.weixin.qq.com/s/0vxwsFo1cAcLluBgz8UvTg

页: [1]

靠浦ai课堂's Archiver

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成