周大 发表于 2025-9-19 15:06:17

理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA

浙江大学本科生谢集与加州大学伯克利分校、华盛顿大学及Meta研究人员合作提出“重建对齐”(RecA)方法,旨在解决统一多模态模型中视觉理解与生成能力不平衡问题。该方法利用图像自身提供稠密监督信号,在无需文本标注的情况下通过自监督后训练提升生成性能。实验显示,RecA在Show-o、Harmon、BAGEL等四种主流模型上均显著提升表现,其中Harmon-1.5B在GenEval和DPGBench分别达0.90和88.15,刷新现有记录;BAGEL在图像编辑任务中也超越部分SOTA模型,展现出良好的通用性与应用潜力。
来源:https://mp.weixin.qq.com/s/stEchntnx1QuzPcMAlcMsw
页: [1]
查看完整版本: 理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA