周大 发表于 2024-10-21 14:31:49

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

智源研究院发布了原生多模态世界模型 Emu3,该模型仅通过预测下一个 token 实现文本、图像和视频的理解和生成。Emu3 在图像生成、视频生成和视觉语言理解任务中表现出色,超过 SDXL、LLaVA 和 OpenSora 等知名模型。Emu3 使用强大的视觉 tokenizer 将图像和视频转换为离散 token,实现 Any-to-Any 的任务。此外,Emu3 采用直接偏好优化技术,使模型与人类偏好保持一致。该模型已开源,受到社区广泛关注,被认为是多模态 AI 领域的重要进展。
来源:https://mp.weixin.qq.com/s/csqFAkjziwx34aAxKj9-gQ
页: [1]
查看完整版本: 视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式