通义千问Qwen 2.5-Max超大规模MoE模型号称优于Deepseek V3等竞品,暂未开源

[复制链接]
周大 发表于 2025-1-30 11:28:47 | 显示全部楼层 |阅读模式
阿里云发布了全新的通义千问Qwen 2.5-Max超大规模MoE模型,该模型使用超过20万亿token的数据进行训练。用户可通过API或Qwen Chat体验其功能。在多个基准测试中,Qwen 2.5-Max的表现优于DeepSeek V3,并在其他评估中展现竞争力。基座模型对比显示其在大多数测试中具有显著优势。随着后训练技术的发展,预计未来版本将取得更优异的成绩。
来源:https://tech.ifeng.com/c/8gWj7H9x4Lq

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 07:16 , Processed in 0.289540 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表