视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

[复制链接]
周大 发表于 2024-10-21 14:31:49 | 显示全部楼层 |阅读模式
智源研究院发布了原生多模态世界模型 Emu3,该模型仅通过预测下一个 token 实现文本、图像和视频的理解和生成。Emu3 在图像生成、视频生成和视觉语言理解任务中表现出色,超过 SDXL、LLaVA 和 OpenSora 等知名模型。Emu3 使用强大的视觉 tokenizer 将图像和视频转换为离散 token,实现 Any-to-Any 的任务。此外,Emu3 采用直接偏好优化技术,使模型与人类偏好保持一致。该模型已开源,受到社区广泛关注,被认为是多模态 AI 领域的重要进展。
来源:https://mp.weixin.qq.com/s/csqFAkjziwx34aAxKj9-gQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 20:04 , Processed in 0.270958 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表