全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

[复制链接]
周大 发表于 2025-9-12 14:31:54 | 显示全部楼层 |阅读模式
阿里通义团队发布并开源新一代大语言模型架构 Qwen3-Next,总参数量 800 亿,推理时仅激活 30 亿参数,性能媲美 Qwen3 旗舰版 235B 模型,并超越 Gemini-2.5-Flash-Thinking。该模型采用混合注意力机制、高稀疏 MoE 架构及多 token 预测机制,在训练效率、推理吞吐和长上下文处理方面实现重大突破。与 Qwen3-32B 相比,在 4k 上下文下推理吞吐提升近 4–7 倍,32k 上下文下提升达十倍以上,训练成本仅为前者的十分之一。Qwen3-Next 在多个权威评测中表现优异,尤其在 AIME25 数学推理中得分 87.8,模型已在 Qwen.ai 和 HuggingFace 上线。
来源:https://mp.weixin.qq.com/s/0vxwsFo1cAcLluBgz8UvTg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 14:28 , Processed in 0.278282 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表