token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
新加坡国立大学 AI 团队提出扩散语言模型(DLMs),有望缓解当前大语言模型面临的“token 危机”。研究显示,在训练数据受限的情况下,DLMs 表现显著优于传统自回归模型(AR),在仅使用 10 亿 token 的情况下,其模型在 HellaSwag 和 MMLU 基准上分别达到 56% 和 33% 的准确率。研究还发现,DLMs 在重复训练中持续提升性能且未见饱和。团队同时指出,同期研究《Diffusion Beats Autoregressive in Data-Constrained Settings》在方法论上存在缺陷,可能导致结论偏差。来源:https://mp.weixin.qq.com/s/_0jPunil23XyhDg9rX3jqw
页:
[1]