周大 发表于 2025-5-10 14:39:17

Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

南洋理工大学博士生吴思泽提出Harmon项目,旨在通过统一视觉表征协调图像理解和生成。不同于现有割裂或单一表征方法,Harmon基于MAR Encoder实现理解与生成共享,采用三阶段训练策略。实验表明,Harmon在多模态理解基准上接近顶尖水平,在文生图基准上大幅领先同类模型,尤其在美学和指令跟随指标上表现出色,展现出生成与理解协同进化的潜力。
来源:https://mp.weixin.qq.com/s/CX7X8vO0t4MHC2EkB-7huQ
页: [1]
查看完整版本: Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)