周大 发表于 2025-2-23 15:01:52

淘天发布首个中文视觉问答基准

淘天集团未来生活实验室推出了首个面向事实知识的中文视觉问答基准ChineseSimpleVQA,涵盖8个主要话题及56个子话题,共2200个高质量问题。该基准通过严格的构建流程,包括自动化问答对生成、质量控制、难度筛选和人工验证等步骤,最终形成1100幅图片和2200个问答对的数据集。研究团队对34个模型进行了全面评测,结果显示o1-preview表现最佳,但在知识扩展和置信度方面仍存在挑战。此外,研究还发现模型的知识能力随规模提升,但幻觉问题依然突出。ChineseSimpleVQA具备多跳评估、多样性、高质量等五大特点,为视觉大模型提供了重要的评估工具。
来源:https://mp.weixin.qq.com/s/r4UcYGNFvp0v6MkwGuBd1g
页: [1]
查看完整版本: 淘天发布首个中文视觉问答基准