谷歌&MIT何恺明团队:视觉大模型像LLM一样高效Scaling,指路连续token+随机生成顺序

[复制链接]
周大 发表于 2024-10-20 14:47:31 | 显示全部楼层 |阅读模式
谷歌和MIT何恺明团队合作开发了新的视觉自回归模型Fluid,基于连续token和随机顺序生成技术,显著提升了图像生成质量。该模型在MS-COCO 30K上实现6.16的FID分数,GenEval测试得分为0.69。Fluid模型参数量扩展至100亿,展示了良好的可扩展性,为未来视觉模型的发展提供了新方向。
来源:https://mp.weixin.qq.com/s/ceJYpPImbsHsVIHWVzhjNA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 23:51 , Processed in 0.281999 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表