周大 发表于 2025-1-30 11:28:47

通义千问Qwen 2.5-Max超大规模MoE模型号称优于Deepseek V3等竞品,暂未开源

阿里云发布了全新的通义千问Qwen 2.5-Max超大规模MoE模型,该模型使用超过20万亿token的数据进行训练。用户可通过API或Qwen Chat体验其功能。在多个基准测试中,Qwen 2.5-Max的表现优于DeepSeek V3,并在其他评估中展现竞争力。基座模型对比显示其在大多数测试中具有显著优势。随着后训练技术的发展,预计未来版本将取得更优异的成绩。
来源:https://tech.ifeng.com/c/8gWj7H9x4Lq
页: [1]
查看完整版本: 通义千问Qwen 2.5-Max超大规模MoE模型号称优于Deepseek V3等竞品,暂未开源