多校联合团队首创KRIS-Bench 从知识类型视角全面评测图像编辑模型推理能力

周大发表于 2025-6-13 14:56:53

东南大学联合多所机构推出KRIS-Bench，首次从知识类型视角评测图像编辑模型推理能力，涵盖事实性、概念性和程序性知识三大层面。基准包含22种任务与1,267对样本，采用四维度自动化评估指标。测试显示，闭源模型表现优于开源模型，但所有模型在深层推理任务中普遍失分。该研究旨在推动AI向“视觉智者”迈进，融入更多常识与因果推理能力。
来源：https://mp.weixin.qq.com/s/KSKsp2gnOGiUlFvFkW6-UQ

页: [1]

靠浦ai课堂's Archiver

多校联合团队首创KRIS-Bench 从知识类型视角全面评测图像编辑模型推理能力