给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
苹果研究人员开发了一款名为SF-LLaVA的新模型,旨在解决现有视频大语言模型处理视频帧数受限和时间建模不足的问题。SF-LLaVA基于LLaVA-NeXT架构,无需额外训练即可使用。通过采用SlowFast输入机制,该模型能够在不增加训练成本的情况下有效理解视频中的细节和动作,实验结果表明其性能超越了现有免训练模型,并与经过微调的模型相当。来源:https://mp.weixin.qq.com/s/i1rboV_LSxS6NzYa6UMG2A
页:
[1]