周大 发表于 2025-6-13 14:56:53

多校联合团队首创KRIS-Bench 从知识类型视角全面评测图像编辑模型推理能力

东南大学联合多所机构推出KRIS-Bench,首次从知识类型视角评测图像编辑模型推理能力,涵盖事实性、概念性和程序性知识三大层面。基准包含22种任务与1,267对样本,采用四维度自动化评估指标。测试显示,闭源模型表现优于开源模型,但所有模型在深层推理任务中普遍失分。该研究旨在推动AI向“视觉智者”迈进,融入更多常识与因果推理能力。
来源:https://mp.weixin.qq.com/s/KSKsp2gnOGiUlFvFkW6-UQ
页: [1]
查看完整版本: 多校联合团队首创KRIS-Bench 从知识类型视角全面评测图像编辑模型推理能力