DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

[复制链接]
周大 发表于 2025-8-20 15:24:03 | 显示全部楼层 |阅读模式
一篇在社交平台引发热议的帖子质疑 DiT(扩散模型与 Transformer 结合的架构)存在架构缺陷,指出其 FID 指标过早收敛,并提出其使用 Post-LayerNorm 和 adaLN-zero 等设计限制了模型潜力。论文《TREAD》提出通过“令牌路由”机制,在不改变架构的前提下将训练效率提升 14 至 37 倍。DiT 原作者谢赛宁回应称此类批评缺乏实证支持,并指出已有改进版本如 Lightning DiT。尽管 DiT 曾因缺乏创新被拒稿,但其已成为主流生成模型如 Sora 和 Stable Diffusion 3 的基础架构,目前仍在持续优化中。
来源:https://mp.weixin.qq.com/s/wCqh9BIPoXjiK5yTGOPrqA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 21:00 , Processed in 0.283889 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表