腾讯发布X-Omini：强化学习让离散自回归生成方法重焕生机，轻松渲染长文本图像

周大发表于 2025-8-10 15:15:21

腾讯混元团队推出X-Omni模型，通过强化学习显著提升自回归图像生成质量。该模型在美学图像生成、复杂指令遵循和中英文长文本渲染方面表现优异，已在多个基准测试中超越现有模型。X-Omni采用离散token自回归架构，结合扩散解码器实现图像理解与生成的统一，并构建多维度奖励系统指导训练。研究还发现，该模型无需传统依赖的分类器无关引导（CFG）即可生成高质量图像，表明其视觉与语言生成机制的高度一致性。这一成果展示了强化学习在图像生成领域的独特优势，并推动了更统一、全模态AI模型的发展。
来源：https://mp.weixin.qq.com/s/NXio1vzA-fFDTILtqgfyTQ

页: [1]

靠浦ai课堂's Archiver

腾讯发布X-Omini：强化学习让离散自回归生成方法重焕生机，轻松渲染长文本图像