小红书开源自研中等规模MoE模型dots.llm1,展现强大性能与行业最大开源力度
小红书近日开源了其首个自研大模型 dots.llm1,这是一款总参数量 142B、激活参数 14B 的 MoE 模型,展现了在中英文理解、数学、代码生成等任务上的强劲竞争力,性能可媲美 Qwen2.5 和 Qwen3 系列。该模型基于高质量的 11.2T token 数据训练,未使用合成语料,同时通过创新的 interleaved 1F1B with A2A overlap 方法显著提升训练效率。实测结果表明,dots 在中文绕口令解析、藏头诗创作及响应式天气卡片编码等方面表现出色。此次开源不仅提供模型本身,还包含丰富的预训练 checkpoint 和微调工具,体现了行业领先的开源力度,标志着小红书主动融入技术社区的决心。来源:https://mp.weixin.qq.com/s/UUqh_F4DpYc35jzxKV7-vQ
页:
[1]