12月视觉模型大爆发，多模态AI迎来新纪元

周大发表于 2024-12-20 15:19:36

2024年12月，多家科技巨头相继发布了闭源和开源的视觉模型，如PaliGemma 2、InternVL 2.5、Qwen2-VL、HunyuanVideo和OminiControl。这些模型具备多种功能，包括图像识别、生成高清视频、处理长时间视频和采用参考图像生成精准图像等。这些开源模型不仅提高了多模态AI的应用能力，还有助于缩小行业与公众社区在视频生成能力上的差距，预计2025年多模态AI应用将迎来全面爆发。
来源：https://mp.weixin.qq.com/s/vLH5F4UPkcONo0-uj9OBkA

		自动登录	找回密码
密码			立即注册

课程导航

12月视觉模型大爆发，多模态AI迎来新纪元