周大 发表于 2024-12-26 14:59:09

阿里开源首个视觉推理模型,击败GPT-4o

阿里巴巴发布首个视觉推理模型QVQ,能够通过读取图像与指令进行思考,适用于数学、物理、化学、生物等多个领域。目前QVQ处于实验阶段并已开放测试,其在MMMU基准测试中取得70.3分的成绩,超越了部分同类模型。然而,该模型还存在语言混合、递归推理等方面的问题。团队表示将继续优化模型性能,以实现基于视觉信息的深度思考和多模态整合,更好地应对复杂挑战。
来源:https://mp.weixin.qq.com/s/dsm1wmUqHaUVCbUteUb-mg
页: [1]
查看完整版本: 阿里开源首个视觉推理模型,击败GPT-4o