苹果新AI模型长视频理解夺冠,小至1B版本也领先对手
苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,在1B、3B、7B参数下刷新LongVideoBench和MLVU等SOTA纪录。该模型采用双流架构,通过“慢流”捕捉细节、“快流”追踪运动,并在图像任务上表现优异,实现视频与图像通用理解。其设计降低计算与显存需求,且完全基于公开数据集训练,已在GitHub与Hugging Face开源,便于学术与产业界复现应用。来源:https://tech.ifeng.com/c/8m3PEM45unI
页:
[1]