谷歌&MIT何恺明团队:视觉大模型像LLM一样高效Scaling,指路连续token+随机生成顺序
谷歌和MIT何恺明团队合作开发了新的视觉自回归模型Fluid,基于连续token和随机顺序生成技术,显著提升了图像生成质量。该模型在MS-COCO 30K上实现6.16的FID分数,GenEval测试得分为0.69。Fluid模型参数量扩展至100亿,展示了良好的可扩展性,为未来视觉模型的发展提供了新方向。来源:https://mp.weixin.qq.com/s/ceJYpPImbsHsVIHWVzhjNA
页:
[1]