苹果新AI模型长视频理解夺冠，小至1B版本也领先对手

周大发表于 2025-8-24 14:13:27

苹果研究团队开源了SlowFast-LLaVA-1.5长视频多模态大语言模型，在1B、3B、7B参数下刷新LongVideoBench和MLVU等SOTA纪录。该模型采用双流架构，通过“慢流”捕捉细节、“快流”追踪运动，并在图像任务上表现优异，实现视频与图像通用理解。其设计降低计算与显存需求，且完全基于公开数据集训练，已在GitHub与Hugging Face开源，便于学术与产业界复现应用。
来源：https://tech.ifeng.com/c/8m3PEM45unI

页: [1]

靠浦ai课堂's Archiver

苹果新AI模型长视频理解夺冠，小至1B版本也领先对手