通义千问Qwen 2.5-Max超大规模MoE模型号称优于Deepseek V3等竞品,暂未开源
阿里云发布了全新的通义千问Qwen 2.5-Max超大规模MoE模型,该模型使用超过20万亿token的数据进行训练。用户可通过API或Qwen Chat体验其功能。在多个基准测试中,Qwen 2.5-Max的表现优于DeepSeek V3,并在其他评估中展现竞争力。基座模型对比显示其在大多数测试中具有显著优势。随着后训练技术的发展,预计未来版本将取得更优异的成绩。来源:https://tech.ifeng.com/c/8gWj7H9x4Lq
页:
[1]