85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型

周大发表于 2025-5-17 14:41:27

苹果近期开源了FastVLM模型，该模型基于新型混合视觉编码器FastViTHD，专注于解决体积与速度问题。相较于传统模型，其首个token输出速度提升85倍，视觉token数量减少16倍。FastVLM提供0.5B、1.5B、7B三种参数量级版本，适合边缘设备和实时图文任务。研究团队通过大量实验证明，FastViTHD在不同分辨率和LLM规模下均表现出显著性能优势。
来源：https://mp.weixin.qq.com/s/QPEGEnSy3m_3EWSz__lnEQ

		自动登录	找回密码
密码			立即注册

课程导航

85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型