周大 发表于 2024-12-20 15:19:36

12月视觉模型大爆发,多模态AI迎来新纪元

2024年12月,多家科技巨头相继发布了闭源和开源的视觉模型,如PaliGemma 2、InternVL 2.5、Qwen2-VL、HunyuanVideo和OminiControl。这些模型具备多种功能,包括图像识别、生成高清视频、处理长时间视频和采用参考图像生成精准图像等。这些开源模型不仅提高了多模态AI的应用能力,还有助于缩小行业与公众社区在视频生成能力上的差距,预计2025年多模态AI应用将迎来全面爆发。
来源:https://mp.weixin.qq.com/s/vLH5F4UPkcONo0-uj9OBkA
页: [1]
查看完整版本: 12月视觉模型大爆发,多模态AI迎来新纪元