阿里云发布通义Qwen3-Next基础模型架构并开源80B-A3B系列

[复制链接]
周大 发表于 2025-9-12 14:42:14 | 显示全部楼层 |阅读模式
阿里云通义团队于9月12日发布新一代基础模型架构Qwen3-Next,并开源Qwen3-Next-80B-A3B系列模型。该架构通过混合注意力机制、高稀疏度MoE结构等改进,在保持800亿参数规模的同时,仅激活30亿参数,训练成本仅为Qwen3-32B的十分之一,推理吞吐提升十倍以上。模型原生支持262K上下文,可外推至百万tokens,在部分评测中表现接近或超越更大模型。目前模型已在Hugging Face开源,支持多种部署方式,具备较高性价比与实用性。
来源:https://tech.ifeng.com/c/8ma07LWdpNJ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 14:29 , Processed in 0.299107 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表