UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成
复旦大学与美团联合推出UniToken,这是一种创新的统一视觉编码方案。通过融合连续和离散视觉表征,UniToken在图文理解和图像生成任务中表现出色,解决了传统方法中的“任务干扰”和“表示割裂”问题。其三阶段训练策略确保了模型在理解与生成上的平衡,同时引入细粒度视觉增强技术提升性能。实验结果显示,UniToken在多个主流多模态基准上超越现有模型,为多模态大模型的发展提供了新思路。来源:https://www.chinaz.com/2025/0425/1682529.shtml
页:
[1]