token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

[复制链接]
周大 发表于 2025-8-10 15:07:20 | 显示全部楼层 |阅读模式
新加坡国立大学 AI 团队提出扩散语言模型(DLMs),有望缓解当前大语言模型面临的“token 危机”。研究显示,在训练数据受限的情况下,DLMs 表现显著优于传统自回归模型(AR),在仅使用 10 亿 token 的情况下,其模型在 HellaSwag 和 MMLU 基准上分别达到 56% 和 33% 的准确率。研究还发现,DLMs 在重复训练中持续提升性能且未见饱和。团队同时指出,同期研究《Diffusion Beats Autoregressive in Data-Constrained Settings》在方法论上存在缺陷,可能导致结论偏差。
来源:https://mp.weixin.qq.com/s/_0jPunil23XyhDg9rX3jqw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 10:59 , Processed in 0.274742 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表