华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
华为盘古多模态生成团队推出 Selftok 技术,通过反向扩散过程将自回归先验融入视觉 token,解决了传统空间 token 化方案与 AR 范式的冲突。Selftok 实现了纯 AR 架构、扩散范式统一和推理性能提升三大突破,并在视觉重建和跨模态生成任务中达到 SOTA 水平。实验表明,Selftok-Zero 在 GenEval 和 DPG-Bench 榜单中分别获得 92% 和 85.57 分,显著优于 GPT-4o 等模型。相关研究论文入选 CVPR 2025 最佳论文候选。
来源:https://mp.weixin.qq.com/s/bIjg-SSl7lDQrODE-Hx_vQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 18:11 , Processed in 0.285860 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表