港科大联合SnapResearch发布ThinkDiff,让扩散模型具备多模态推理能力

[复制链接]
周大 发表于 2025-7-16 14:44:11 | 显示全部楼层 |阅读模式
在 ICML2025 上,香港科技大学联合 Snap Research 提出新型多模态图像生成方法 ThinkDiff,突破传统扩散模型只能基于精确提示生成图像的限制,使其具备在图文混合输入下进行推理与创作的能力。该方法通过将视觉语言模型(VLM)推理能力迁移至扩散模型,在仅使用少量图文对和5小时×4块A100 GPU训练条件下,实现了媲美Gemini的多模态生成效果,并可在低资源下扩展至视频生成。相较于现有方法,ThinkDiff 显著降低了训练成本,同时在 CoBSAT 等基准上表现优异,为图像与视频生成技术提供了高效且实用的新路径。
来源:https://mp.weixin.qq.com/s/2A2NuLLcqQ8-bu8M-_-5uA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 14:55 , Processed in 0.292260 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表