UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成

[复制链接]
周大 发表于 2025-4-25 14:13:48 | 显示全部楼层 |阅读模式
复旦大学与美团联合推出UniToken,这是一种创新的统一视觉编码方案。通过融合连续和离散视觉表征,UniToken在图文理解和图像生成任务中表现出色,解决了传统方法中的“任务干扰”和“表示割裂”问题。其三阶段训练策略确保了模型在理解与生成上的平衡,同时引入细粒度视觉增强技术提升性能。实验结果显示,UniToken在多个主流多模态基准上超越现有模型,为多模态大模型的发展提供了新思路。
来源:https://www.chinaz.com/2025/0425/1682529.shtml

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 12:16 , Processed in 0.272977 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表