顶级视觉语言模型在“视力测试”中暴露显著缺陷
最新的研究表明,尽管当前最尖端的视觉语言模型在处理复杂的视觉和语言任务上表现出色,但在基础的视觉识别任务,如数线条交点或判断几何形状关系时,其性能远低于人类预期。研究人员设计的一系列“视力测试”揭示了这些模型在处理图像细节和空间关系时存在的局限性,即使是最优秀的模型Sonnet-3.5也在这些任务中表现出“近视”般的模糊视觉。这一发现引发了对VLMs的视觉理解和推理能力的深入讨论。来源:https://mp.weixin.qq.com/s/a91PUwEXeR5B_lfa3TjsoA
页:
[1]