苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

[复制链接]
周大 发表于 2024-12-13 13:46:18 | 显示全部楼层 |阅读模式
苹果 MM1Team 发布了新的视频生成大模型 STIV,拥有 87 亿参数,支持文本和图像条件。STIV 在 VBench 基准数据集上表现优异,超过 PIKA、KLING 和 GEN-3。该模型统一处理文本到视频(T2V)和文本-图像到视频(TI2V)任务,采用渐进式训练策略,提高了训练效率和稳定性。STIV 可应用于视频预测、帧插值、多视角生成和长视频生成,展示了广泛的适用性和潜力。
来源:https://mp.weixin.qq.com/s/6mbe80LmzkH-5eGgIys6PQ

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 17:04 , Processed in 0.276607 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表