阿里开源首个视觉推理模型，击败GPT-4o

周大发表于 2024-12-26 14:59:09

阿里巴巴发布首个视觉推理模型QVQ，能够通过读取图像与指令进行思考，适用于数学、物理、化学、生物等多个领域。目前QVQ处于实验阶段并已开放测试，其在MMMU基准测试中取得70.3分的成绩，超越了部分同类模型。然而，该模型还存在语言混合、递归推理等方面的问题。团队表示将继续优化模型性能，以实现基于视觉信息的深度思考和多模态整合，更好地应对复杂挑战。
来源：https://mp.weixin.qq.com/s/dsm1wmUqHaUVCbUteUb-mg

		自动登录	找回密码
密码			立即注册

课程导航

阿里开源首个视觉推理模型，击败GPT-4o