阿里发布QVQ-Max视觉推理大模型

[复制链接]
周大 发表于 2025-3-28 14:28:44 | 显示全部楼层 |阅读模式
阿里推出QVQ-Max视觉推理模型,支持对图像和视频的深度思考。该模型不仅能解读手相、识别多张图片间的联系(如不同季节的西湖风景),还能解决数学问题、生成视频字幕。尽管存在个别识别错误(如动漫角色),其在MathVision测试中表现出色,准确率随思考深度提升。此外,QVQ-Max还具备解析细节、推理结论及创意生成(如插画、脚本)的能力,目前已免费开放体验。
来源:https://mp.weixin.qq.com/s/Xe-wF57V2nPJV8-U3Iz7BA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 04:54 , Processed in 0.303105 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表