苹果新AI模型长视频理解夺冠,小至1B版本也领先对手

[复制链接]
周大 发表于 2025-8-24 14:13:27 | 显示全部楼层 |阅读模式
苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型,在1B、3B、7B参数下刷新LongVideoBench和MLVU等SOTA纪录。该模型采用双流架构,通过“慢流”捕捉细节、“快流”追踪运动,并在图像任务上表现优异,实现视频与图像通用理解。其设计降低计算与显存需求,且完全基于公开数据集训练,已在GitHub与Hugging Face开源,便于学术与产业界复现应用。
来源:https://tech.ifeng.com/c/8m3PEM45unI

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 21:09 , Processed in 0.314756 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表