通义千问Qwen 2.5-Max超大规模MoE模型号称优于Deepseek V3等竞品，暂未开源

周大发表于 2025-1-30 11:28:47

阿里云发布了全新的通义千问Qwen 2.5-Max超大规模MoE模型，该模型使用超过20万亿token的数据进行训练。用户可通过API或Qwen Chat体验其功能。在多个基准测试中，Qwen 2.5-Max的表现优于DeepSeek V3，并在其他评估中展现竞争力。基座模型对比显示其在大多数测试中具有显著优势。随着后训练技术的发展，预计未来版本将取得更优异的成绩。
来源：https://tech.ifeng.com/c/8gWj7H9x4Lq

页: [1]

靠浦ai课堂's Archiver

通义千问Qwen 2.5-Max超大规模MoE模型号称优于Deepseek V3等竞品，暂未开源