谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

周大发表于 2024-10-20 14:47:31

谷歌和MIT何恺明团队合作开发了新的视觉自回归模型Fluid，基于连续token和随机顺序生成技术，显著提升了图像生成质量。该模型在MS-COCO 30K上实现6.16的FID分数，GenEval测试得分为0.69。Fluid模型参数量扩展至100亿，展示了良好的可扩展性，为未来视觉模型的发展提供了新方向。
来源：https://mp.weixin.qq.com/s/ceJYpPImbsHsVIHWVzhjNA

页: [1]

靠浦ai课堂's Archiver

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序