免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」

[复制链接]
周大 发表于 2025-9-27 14:28:26 | 显示全部楼层 |阅读模式
杜克大学团队提出DPad新策略,揭示扩散大语言模型(dLLM)可通过仅关注少量关键token实现推理加速与精度提升。该方法无需训练,利用滑动窗口与距离衰减丢弃机制,在推理前主动过滤冗余信息。实验表明,DPad在LLaDA-1.5上实现61.39倍加速,在Dream-Base上达97.32倍加速,同时将GSM8K任务的严格匹配准确率从37.38%提升至63.84%,证明其在降低计算成本的同时增强了模型对格式与指令的理解能力。
来源:https://mp.weixin.qq.com/s/qOb1J6lrNxHwJJ_wLn2ttA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-9 23:53 , Processed in 0.298171 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表