周大 发表于 2025-7-16 14:44:11

港科大联合SnapResearch发布ThinkDiff,让扩散模型具备多模态推理能力

在 ICML2025 上,香港科技大学联合 Snap Research 提出新型多模态图像生成方法 ThinkDiff,突破传统扩散模型只能基于精确提示生成图像的限制,使其具备在图文混合输入下进行推理与创作的能力。该方法通过将视觉语言模型(VLM)推理能力迁移至扩散模型,在仅使用少量图文对和5小时×4块A100 GPU训练条件下,实现了媲美Gemini的多模态生成效果,并可在低资源下扩展至视频生成。相较于现有方法,ThinkDiff 显著降低了训练成本,同时在 CoBSAT 等基准上表现优异,为图像与视频生成技术提供了高效且实用的新路径。
来源:https://mp.weixin.qq.com/s/2A2NuLLcqQ8-bu8M-_-5uA
页: [1]
查看完整版本: 港科大联合SnapResearch发布ThinkDiff,让扩散模型具备多模态推理能力