顶级视觉语言模型在“视力测试”中暴露显著缺陷

[复制链接]
周大 发表于 2024-7-12 16:33:05 | 显示全部楼层 |阅读模式
最新的研究表明,尽管当前最尖端的视觉语言模型在处理复杂的视觉和语言任务上表现出色,但在基础的视觉识别任务,如数线条交点或判断几何形状关系时,其性能远低于人类预期。研究人员设计的一系列“视力测试”揭示了这些模型在处理图像细节和空间关系时存在的局限性,即使是最优秀的模型Sonnet-3.5也在这些任务中表现出“近视”般的模糊视觉。这一发现引发了对VLMs的视觉理解和推理能力的深入讨论。
来源:https://mp.weixin.qq.com/s/a91PUwEXeR5B_lfa3TjsoA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 01:50 , Processed in 0.276286 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表