周大 发表于 2024-10-20 14:47:31

谷歌&MIT何恺明团队:视觉大模型像LLM一样高效Scaling,指路连续token+随机生成顺序

谷歌和MIT何恺明团队合作开发了新的视觉自回归模型Fluid,基于连续token和随机顺序生成技术,显著提升了图像生成质量。该模型在MS-COCO 30K上实现6.16的FID分数,GenEval测试得分为0.69。Fluid模型参数量扩展至100亿,展示了良好的可扩展性,为未来视觉模型的发展提供了新方向。
来源:https://mp.weixin.qq.com/s/ceJYpPImbsHsVIHWVzhjNA
页: [1]
查看完整版本: 谷歌&MIT何恺明团队:视觉大模型像LLM一样高效Scaling,指路连续token+随机生成顺序