淘天发布首个中文视觉问答基准

[复制链接]
周大 发表于 2025-2-23 15:01:52 | 显示全部楼层 |阅读模式
淘天集团未来生活实验室推出了首个面向事实知识的中文视觉问答基准ChineseSimpleVQA,涵盖8个主要话题及56个子话题,共2200个高质量问题。该基准通过严格的构建流程,包括自动化问答对生成、质量控制、难度筛选和人工验证等步骤,最终形成1100幅图片和2200个问答对的数据集。研究团队对34个模型进行了全面评测,结果显示o1-preview表现最佳,但在知识扩展和置信度方面仍存在挑战。此外,研究还发现模型的知识能力随规模提升,但幻觉问题依然突出。ChineseSimpleVQA具备多跳评估、多样性、高质量等五大特点,为视觉大模型提供了重要的评估工具。
来源:https://mp.weixin.qq.com/s/r4UcYGNFvp0v6MkwGuBd1g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 10:57 , Processed in 0.263682 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表