阿里云发布通义Qwen3-Next基础模型架构并开源80B-A3B系列

周大发表于 2025-9-12 14:42:14

阿里云通义团队于9月12日发布新一代基础模型架构Qwen3-Next，并开源Qwen3-Next-80B-A3B系列模型。该架构通过混合注意力机制、高稀疏度MoE结构等改进，在保持800亿参数规模的同时，仅激活30亿参数，训练成本仅为Qwen3-32B的十分之一，推理吞吐提升十倍以上。模型原生支持262K上下文，可外推至百万tokens，在部分评测中表现接近或超越更大模型。目前模型已在Hugging Face开源，支持多种部署方式，具备较高性价比与实用性。
来源：https://tech.ifeng.com/c/8ma07LWdpNJ

页: [1]

靠浦ai课堂's Archiver

阿里云发布通义Qwen3-Next基础模型架构并开源80B-A3B系列