腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

[复制链接]
周大 发表于 2025-8-10 15:15:21 | 显示全部楼层 |阅读模式
腾讯混元团队推出X-Omni模型,通过强化学习显著提升自回归图像生成质量。该模型在美学图像生成、复杂指令遵循和中英文长文本渲染方面表现优异,已在多个基准测试中超越现有模型。X-Omni采用离散token自回归架构,结合扩散解码器实现图像理解与生成的统一,并构建多维度奖励系统指导训练。研究还发现,该模型无需传统依赖的分类器无关引导(CFG)即可生成高质量图像,表明其视觉与语言生成机制的高度一致性。这一成果展示了强化学习在图像生成领域的独特优势,并推动了更统一、全模态AI模型的发展。
来源:https://mp.weixin.qq.com/s/NXio1vzA-fFDTILtqgfyTQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 10:46 , Processed in 0.283768 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表