周大 发表于 2025-9-12 14:31:54

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

阿里通义团队发布并开源新一代大语言模型架构 Qwen3-Next,总参数量 800 亿,推理时仅激活 30 亿参数,性能媲美 Qwen3 旗舰版 235B 模型,并超越 Gemini-2.5-Flash-Thinking。该模型采用混合注意力机制、高稀疏 MoE 架构及多 token 预测机制,在训练效率、推理吞吐和长上下文处理方面实现重大突破。与 Qwen3-32B 相比,在 4k 上下文下推理吞吐提升近 4–7 倍,32k 上下文下提升达十倍以上,训练成本仅为前者的十分之一。Qwen3-Next 在多个权威评测中表现优异,尤其在 AIME25 数学推理中得分 87.8,模型已在 Qwen.ai 和 HuggingFace 上线。
来源:https://mp.weixin.qq.com/s/0vxwsFo1cAcLluBgz8UvTg
页: [1]
查看完整版本: 全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成