苹果新模型4M-21,一款能处理21种模态的多任务视觉模型

[复制链接]
周大 发表于 2024-6-25 15:40:13 | 显示全部楼层 |阅读模式
EPFL和苹果的研究者合作创建了一款单一模型4M-21,能处理21种模态和数十种任务,打破了现有多模态模型的局限。该模型通过特定模态的离散tokenization进行训练,实现了任意到任意模态的转换,增强了多模态生成、检索和任务执行能力,且在各种视觉任务和迁移实验中表现出色。
来源:https://mp.weixin.qq.com/s/OI4bAYrxATFP20BFrlqSog

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 05:05 , Processed in 0.298866 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表