苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

周大发表于 2024-12-13 13:46:18

苹果 MM1Team 发布了新的视频生成大模型 STIV，拥有 87 亿参数，支持文本和图像条件。STIV 在 VBench 基准数据集上表现优异，超过 PIKA、KLING 和 GEN-3。该模型统一处理文本到视频（T2V）和文本-图像到视频（TI2V）任务，采用渐进式训练策略，提高了训练效率和稳定性。STIV 可应用于视频预测、帧插值、多视角生成和长视频生成，展示了广泛的适用性和潜力。
来源：https://mp.weixin.qq.com/s/6mbe80LmzkH-5eGgIys6PQ

页: [1]

靠浦ai课堂's Archiver

苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务