Sony AI等机构的研究人员开发了一种低成本端到端pipeline,仅花费1890美元就成功训练出一个具有11.6亿参数的稀疏transformer扩散模型,该模型在COCO数据集上实现了12.7 FID的零样本生成性能。研究人员通过延迟掩蔽策略解决了高掩蔽率下的性能下降问题,并利用最新的Transformer架构进展进一步提升了大规模训练性能,与现有模型相比,该模型仅使用3700万张图像训练,成本降低了约118倍,展现出巨大的经济效益。
来源:https://mp.weixin.qq.com/s/u0kEbuwmLQrYosqLm0yslw