阿里发布QVQ-Max视觉推理大模型

周大发表于 2025-3-28 14:28:44

阿里推出QVQ-Max视觉推理模型，支持对图像和视频的深度思考。该模型不仅能解读手相、识别多张图片间的联系（如不同季节的西湖风景），还能解决数学问题、生成视频字幕。尽管存在个别识别错误（如动漫角色），其在MathVision测试中表现出色，准确率随思考深度提升。此外，QVQ-Max还具备解析细节、推理结论及创意生成（如插画、脚本）的能力，目前已免费开放体验。
来源：https://mp.weixin.qq.com/s/Xe-wF57V2nPJV8-U3Iz7BA

页: [1]

靠浦ai课堂's Archiver

阿里发布QVQ-Max视觉推理大模型