Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

[复制链接]
周大 发表于 2025-5-10 14:39:17 | 显示全部楼层 |阅读模式
南洋理工大学博士生吴思泽提出Harmon项目,旨在通过统一视觉表征协调图像理解和生成。不同于现有割裂或单一表征方法,Harmon基于MAR Encoder实现理解与生成共享,采用三阶段训练策略。实验表明,Harmon在多模态理解基准上接近顶尖水平,在文生图基准上大幅领先同类模型,尤其在美学和指令跟随指标上表现出色,展现出生成与理解协同进化的潜力。
来源:https://mp.weixin.qq.com/s/CX7X8vO0t4MHC2EkB-7huQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 20:25 , Processed in 0.290613 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表