SANA 1.5是由英伟达联合MIT、清华、北大等机构研发的一种高效可扩展线性扩散Transformer,专门用于文本生成图像任务。该模型通过三项创新——高效的模型增长策略、模型深度剪枝技术和推理时扩展策略,大幅降低了训练和推理成本,同时提升了生成质量。实验结果显示,SANA 1.5的训练收敛速度比传统方法快2.5倍,GenEval分数从0.72提升至0.80,在基准测试中达到了最先进水平。此外,SANA 1.5在运行速度上表现出色,其延迟比FLUX-dev低5.5倍,吞吐量为FLUX-dev的6.5倍,使其在实际应用中更具优势。
来源:https://mp.weixin.qq.com/s/UvOoDGvzAFjA3ImXXVlktw