Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA

周大发表于 2025-1-27 15:52:01

字节跳动智能创作AR团队和豆包大模型团队开发了Video Depth Anything（VDA），解决了单目深度估计模型在视频领域应用的时间一致性问题。VDA融合高效的时空头、精简的时域一致性损失函数等，面向10分钟级视频完成深度估计任务。其精度提升超过10个百分点，推理速度是此前最高精度模型的10倍以上，较小版本VDA模型可达30FPS。此外，VDA在多个Benchmark上刷新SOTA，在超长视频上实现稳定深度估计，具备广泛应用前景。目前，该论文成果和代码仓库均已对外公开。
来源：https://mp.weixin.qq.com/s/Pd2UyOiLmy0aBJwaEPEGDQ

		自动登录	找回密码
密码			立即注册

课程导航

Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA