周大 发表于 2025-4-17 14:36:47

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

伯克利与英伟达合作开发出 PS3 视觉编码器,突破性地实现了无需额外开销的 4K 超高分辨率视觉预训练,解决了传统方法计算代价过高的问题。基于 PS3 的多模态大模型 VILA-HD,在高清场景下表现出更强的细节感知能力和更快的响应速度。研究团队还推出了高分辨率基准测试集 4KPro,验证了 VILA-HD 的优越性能,其准确率较 Qwen2-VL 提升 3.2%,速度提升 3 倍。这一成果为自动驾驶、家用机器人等实际应用提供了新的可能性,并被 CVPR 2025 评为 Highlight 论文。
来源:https://mp.weixin.qq.com/s/YVoAB66uTPQHrBOzQo-Zqg
页: [1]
查看完整版本: 4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理