周大 发表于 2025-1-27 15:52:01

Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA

字节跳动智能创作AR团队和豆包大模型团队开发了Video Depth Anything(VDA),解决了单目深度估计模型在视频领域应用的时间一致性问题。VDA融合高效的时空头、精简的时域一致性损失函数等,面向10分钟级视频完成深度估计任务。其精度提升超过10个百分点,推理速度是此前最高精度模型的10倍以上,较小版本VDA模型可达30FPS。此外,VDA在多个Benchmark上刷新SOTA,在超长视频上实现稳定深度估计,具备广泛应用前景。目前,该论文成果和代码仓库均已对外公开。
来源:https://mp.weixin.qq.com/s/Pd2UyOiLmy0aBJwaEPEGDQ
页: [1]
查看完整版本: Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA