视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

周大发表于 2024-10-21 14:31:49

智源研究院发布了原生多模态世界模型 Emu3，该模型仅通过预测下一个 token 实现文本、图像和视频的理解和生成。Emu3 在图像生成、视频生成和视觉语言理解任务中表现出色，超过 SDXL、LLaVA 和 OpenSora 等知名模型。Emu3 使用强大的视觉 tokenizer 将图像和视频转换为离散 token，实现 Any-to-Any 的任务。此外，Emu3 采用直接偏好优化技术，使模型与人类偏好保持一致。该模型已开源，受到社区广泛关注，被认为是多模态 AI 领域的重要进展。
来源：https://mp.weixin.qq.com/s/csqFAkjziwx34aAxKj9-gQ

页: [1]

靠浦ai课堂's Archiver

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式