EgoNormia：评估AI社会规范理解新基准

周大发表于 2025-3-20 21:43:15

斯坦福大学团队推出EgoNormia基准，用于评估视觉语言模型在物理社会规范理解上的能力。实验表明，尽管当前模型在视觉识别和抽象推理方面表现出色，但在规范合理性和优先级判断上仍显著落后于人类。EgoNormia包含动作选择等三个子任务，数据集由1853个视频切片组成，涵盖多样化场景。测试显示，模型平均准确率仅约40%，远低于人类的92.4%。通过检索增强生成技术，EgoNormia可将模型性能提升9.4%，为未来研究提供方向。
来源：https://mp.weixin.qq.com/s/DWp5iZCiCz5JLgBc70wb7A

页: [1]

靠浦ai课堂's Archiver

EgoNormia：评估AI社会规范理解新基准