苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
苹果 MM1Team 发布了新的视频生成大模型 STIV,拥有 87 亿参数,支持文本和图像条件。STIV 在 VBench 基准数据集上表现优异,超过 PIKA、KLING 和 GEN-3。该模型统一处理文本到视频(T2V)和文本-图像到视频(TI2V)任务,采用渐进式训练策略,提高了训练效率和稳定性。STIV 可应用于视频预测、帧插值、多视角生成和长视频生成,展示了广泛的适用性和潜力。来源:https://mp.weixin.qq.com/s/6mbe80LmzkH-5eGgIys6PQ
页:
[1]