港科大联合SnapResearch发布ThinkDiff，让扩散模型具备多模态推理能力

周大发表于 2025-7-16 14:44:11

在 ICML2025 上，香港科技大学联合 Snap Research 提出新型多模态图像生成方法 ThinkDiff，突破传统扩散模型只能基于精确提示生成图像的限制，使其具备在图文混合输入下进行推理与创作的能力。该方法通过将视觉语言模型（VLM）推理能力迁移至扩散模型，在仅使用少量图文对和5小时×4块A100 GPU训练条件下，实现了媲美Gemini的多模态生成效果，并可在低资源下扩展至视频生成。相较于现有方法，ThinkDiff 显著降低了训练成本，同时在 CoBSAT 等基准上表现优异，为图像与视频生成技术提供了高效且实用的新路径。
来源：https://mp.weixin.qq.com/s/2A2NuLLcqQ8-bu8M-_-5uA

		自动登录	找回密码
密码			立即注册

课程导航

港科大联合SnapResearch发布ThinkDiff，让扩散模型具备多模态推理能力