阿里开源首个视觉推理模型,击败GPT-4o

[复制链接]
周大 发表于 2024-12-26 14:59:09 | 显示全部楼层 |阅读模式
阿里巴巴发布首个视觉推理模型QVQ,能够通过读取图像与指令进行思考,适用于数学、物理、化学、生物等多个领域。目前QVQ处于实验阶段并已开放测试,其在MMMU基准测试中取得70.3分的成绩,超越了部分同类模型。然而,该模型还存在语言混合、递归推理等方面的问题。团队表示将继续优化模型性能,以实现基于视觉信息的深度思考和多模态整合,更好地应对复杂挑战。
来源:https://mp.weixin.qq.com/s/dsm1wmUqHaUVCbUteUb-mg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 11:14 , Processed in 0.285391 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表