Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini

[复制链接]
周大 发表于 2025-1-27 15:50:50 | 显示全部楼层 |阅读模式
阿里云Qwen推出新模型,首次将上下文扩展至1M长度,涵盖Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。新模型在处理百万Tokens长文本任务时实现近7倍提速,显著超越GPT-4o-mini,并保持短文本任务性能。通过长上下文训练、长度外推和稀疏注意力机制等技术,Qwen2.5-1M系列模型在多个测试集上表现出色,相关技术报告和在线体验地址已发布。
来源:https://mp.weixin.qq.com/s/RtKgMJ_K9NJk1JXqQyAWWg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-19 03:50 , Processed in 0.287644 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表