阿里云发布通义Qwen3-Next基础模型架构并开源80B-A3B系列
阿里云通义团队于9月12日发布新一代基础模型架构Qwen3-Next,并开源Qwen3-Next-80B-A3B系列模型。该架构通过混合注意力机制、高稀疏度MoE结构等改进,在保持800亿参数规模的同时,仅激活30亿参数,训练成本仅为Qwen3-32B的十分之一,推理吞吐提升十倍以上。模型原生支持262K上下文,可外推至百万tokens,在部分评测中表现接近或超越更大模型。目前模型已在Hugging Face开源,支持多种部署方式,具备较高性价比与实用性。来源:https://tech.ifeng.com/c/8ma07LWdpNJ
页:
[1]