统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA

[复制链接]
周大 发表于 2025-2-12 14:54:44 | 显示全部楼层 |阅读模式
字节跳动与北京大学研究团队提出Sa2VA,这是首个结合SAM-2和LLaVA-like的视频多模态大模型。该模型实现了时空细粒度理解,在超过20个数据集上进行了联合训练,并在多个视频和图像理解、分割任务中取得领先效果。Sa2VA支持图像对话、视频对话及物体描述生成等任务,通过统一指令微调格式简化任务处理流程。此外,研究人员还提出了新的Ref-SAM-v基准测试及其对应的训练数据集,进一步推动了相关领域的研究进展。
来源:https://mp.weixin.qq.com/s/Rnfy0NHOmxegAcTohxHeBw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 19:22 , Processed in 0.281381 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表