腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
腾讯混元团队推出X-Omni模型,通过强化学习显著提升自回归图像生成质量。该模型在美学图像生成、复杂指令遵循和中英文长文本渲染方面表现优异,已在多个基准测试中超越现有模型。X-Omni采用离散token自回归架构,结合扩散解码器实现图像理解与生成的统一,并构建多维度奖励系统指导训练。研究还发现,该模型无需传统依赖的分类器无关引导(CFG)即可生成高质量图像,表明其视觉与语言生成机制的高度一致性。这一成果展示了强化学习在图像生成领域的独特优势,并推动了更统一、全模态AI模型的发展。来源:https://mp.weixin.qq.com/s/NXio1vzA-fFDTILtqgfyTQ
页:
[1]