生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

周大发表于 2025-3-4 15:42:38

华中科技大学等机构提出极简多模态生成框架Liquid，通过VQGAN将图像编码为离散视觉token，使其与文本token共享同一词汇空间，使LLM无需修改结构即可实现视觉生成与理解。研究发现，多模态能力遵循LLM的尺度定律，且视觉生成与理解任务可双向互促。实验表明，Liquid在视觉生成、语言能力和视觉理解方面表现优异，相比其他方法具有显著优势。该框架不仅简化了多模态模型架构，还大幅降低了训练成本。
来源：https://mp.weixin.qq.com/s/ZgNija1j6HWg_T6SIJWrNg

页: [1]

靠浦ai课堂's Archiver

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！