DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
一篇在社交平台引发热议的帖子质疑 DiT(扩散模型与 Transformer 结合的架构)存在架构缺陷,指出其 FID 指标过早收敛,并提出其使用 Post-LayerNorm 和 adaLN-zero 等设计限制了模型潜力。论文《TREAD》提出通过“令牌路由”机制,在不改变架构的前提下将训练效率提升 14 至 37 倍。DiT 原作者谢赛宁回应称此类批评缺乏实证支持,并指出已有改进版本如 Lightning DiT。尽管 DiT 曾因缺乏创新被拒稿,但其已成为主流生成模型如 Sora 和 Stable Diffusion 3 的基础架构,目前仍在持续优化中。来源:https://mp.weixin.qq.com/s/wCqh9BIPoXjiK5yTGOPrqA
页:
[1]