视频生成无损提速：删除多余token，训练时间减少30%，帧率越高效果越好

周大发表于 2024-11-17 13:55:41

卡内基梅隆大学提出了一种名为Run-Length Tokenization（RLT）的视频生成模型加速方法，被NeurIPS 2024选为Spotlight论文。RLT通过合并视频中连续相同的图像块，显著减少输入token数量，从而在几乎不损失精度的情况下，将训练时间缩短30%，推理速度提升67%。对于30fps视频，训练速度甚至可提升1倍，长视频训练token减少80%。相比传统剪枝方法，RLT表现出更好的加速效果和更低的精度损失。
来源：https://mp.weixin.qq.com/s/Oe3t_d1A52bymWpv6i2CHA

		自动登录	找回密码
密码			立即注册

课程导航

视频生成无损提速：删除多余token，训练时间减少30%，帧率越高效果越好