给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

[复制链接]
周大 发表于 2024-8-11 15:05:42 | 显示全部楼层 |阅读模式
苹果研究人员开发了一款名为SF-LLaVA的新模型,旨在解决现有视频大语言模型处理视频帧数受限和时间建模不足的问题。SF-LLaVA基于LLaVA-NeXT架构,无需额外训练即可使用。通过采用SlowFast输入机制,该模型能够在不增加训练成本的情况下有效理解视频中的细节和动作,实验结果表明其性能超越了现有免训练模型,并与经过微调的模型相当。
来源:https://mp.weixin.qq.com/s/i1rboV_LSxS6NzYa6UMG2A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 22:47 , Processed in 0.302619 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表