Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

周大发表于 2025-1-27 15:50:50

阿里云Qwen推出新模型，首次将上下文扩展至1M长度，涵盖Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。新模型在处理百万Tokens长文本任务时实现近7倍提速，显著超越GPT-4o-mini，并保持短文本任务性能。通过长上下文训练、长度外推和稀疏注意力机制等技术，Qwen2.5-1M系列模型在多个测试集上表现出色，相关技术报告和在线体验地址已发布。
来源：https://mp.weixin.qq.com/s/RtKgMJ_K9NJk1JXqQyAWWg

页: [1]

靠浦ai课堂's Archiver

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini