周大 发表于 2025-3-4 15:42:38

生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

华中科技大学等机构提出极简多模态生成框架Liquid,通过VQGAN将图像编码为离散视觉token,使其与文本token共享同一词汇空间,使LLM无需修改结构即可实现视觉生成与理解。研究发现,多模态能力遵循LLM的尺度定律,且视觉生成与理解任务可双向互促。实验表明,Liquid在视觉生成、语言能力和视觉理解方面表现优异,相比其他方法具有显著优势。该框架不仅简化了多模态模型架构,还大幅降低了训练成本。
来源:https://mp.weixin.qq.com/s/ZgNija1j6HWg_T6SIJWrNg
页: [1]
查看完整版本: 生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!