UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

周大发表于 2025-4-25 14:13:48

复旦大学与美团联合推出UniToken，这是一种创新的统一视觉编码方案。通过融合连续和离散视觉表征，UniToken在图文理解和图像生成任务中表现出色，解决了传统方法中的“任务干扰”和“表示割裂”问题。其三阶段训练策略确保了模型在理解与生成上的平衡，同时引入细粒度视觉增强技术提升性能。实验结果显示，UniToken在多个主流多模态基准上超越现有模型，为多模态大模型的发展提供了新思路。
来源：https://www.chinaz.com/2025/0425/1682529.shtml

页: [1]

靠浦ai课堂's Archiver

UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成