周大 发表于 2025-1-27 15:50:50

Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini

阿里云Qwen推出新模型,首次将上下文扩展至1M长度,涵盖Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。新模型在处理百万Tokens长文本任务时实现近7倍提速,显著超越GPT-4o-mini,并保持短文本任务性能。通过长上下文训练、长度外推和稀疏注意力机制等技术,Qwen2.5-1M系列模型在多个测试集上表现出色,相关技术报告和在线体验地址已发布。
来源:https://mp.weixin.qq.com/s/RtKgMJ_K9NJk1JXqQyAWWg
页: [1]
查看完整版本: Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini