周大 发表于 2024-11-17 13:55:41

视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好

卡内基梅隆大学提出了一种名为Run-Length Tokenization(RLT)的视频生成模型加速方法,被NeurIPS 2024选为Spotlight论文。RLT通过合并视频中连续相同的图像块,显著减少输入token数量,从而在几乎不损失精度的情况下,将训练时间缩短30%,推理速度提升67%。对于30fps视频,训练速度甚至可提升1倍,长视频训练token减少80%。相比传统剪枝方法,RLT表现出更好的加速效果和更低的精度损失。
来源:https://mp.weixin.qq.com/s/Oe3t_d1A52bymWpv6i2CHA
页: [1]
查看完整版本: 视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好