Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA

[复制链接]
周大 发表于 2025-1-27 15:52:01 | 显示全部楼层 |阅读模式
字节跳动智能创作AR团队和豆包大模型团队开发了Video Depth Anything(VDA),解决了单目深度估计模型在视频领域应用的时间一致性问题。VDA融合高效的时空头、精简的时域一致性损失函数等,面向10分钟级视频完成深度估计任务。其精度提升超过10个百分点,推理速度是此前最高精度模型的10倍以上,较小版本VDA模型可达30FPS。此外,VDA在多个Benchmark上刷新SOTA,在超长视频上实现稳定深度估计,具备广泛应用前景。目前,该论文成果和代码仓库均已对外公开。
来源:https://mp.weixin.qq.com/s/Pd2UyOiLmy0aBJwaEPEGDQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 11:09 , Processed in 0.301880 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表