4K分辨率视觉预训练首次实现！伯克利&英伟达多模态新SOTA，更准且3倍加速处理

周大发表于 2025-4-17 14:36:47

伯克利与英伟达合作开发出 PS3 视觉编码器，突破性地实现了无需额外开销的 4K 超高分辨率视觉预训练，解决了传统方法计算代价过高的问题。基于 PS3 的多模态大模型 VILA-HD，在高清场景下表现出更强的细节感知能力和更快的响应速度。研究团队还推出了高分辨率基准测试集 4KPro，验证了 VILA-HD 的优越性能，其准确率较 Qwen2-VL 提升 3.2%，速度提升 3 倍。这一成果为自动驾驶、家用机器人等实际应用提供了新的可能性，并被 CVPR 2025 评为 Highlight 论文。
来源：https://mp.weixin.qq.com/s/YVoAB66uTPQHrBOzQo-Zqg

页: [1]

靠浦ai课堂's Archiver

4K分辨率视觉预训练首次实现！伯克利&英伟达多模态新SOTA，更准且3倍加速处理