周大 发表于 2025-3-28 14:28:44

阿里发布QVQ-Max视觉推理大模型

阿里推出QVQ-Max视觉推理模型,支持对图像和视频的深度思考。该模型不仅能解读手相、识别多张图片间的联系(如不同季节的西湖风景),还能解决数学问题、生成视频字幕。尽管存在个别识别错误(如动漫角色),其在MathVision测试中表现出色,准确率随思考深度提升。此外,QVQ-Max还具备解析细节、推理结论及创意生成(如插画、脚本)的能力,目前已免费开放体验。
来源:https://mp.weixin.qq.com/s/Xe-wF57V2nPJV8-U3Iz7BA
页: [1]
查看完整版本: 阿里发布QVQ-Max视觉推理大模型