周大 发表于 2025-3-20 21:43:15

EgoNormia:评估AI社会规范理解新基准

斯坦福大学团队推出EgoNormia基准,用于评估视觉语言模型在物理社会规范理解上的能力。实验表明,尽管当前模型在视觉识别和抽象推理方面表现出色,但在规范合理性和优先级判断上仍显著落后于人类。EgoNormia包含动作选择等三个子任务,数据集由1853个视频切片组成,涵盖多样化场景。测试显示,模型平均准确率仅约40%,远低于人类的92.4%。通过检索增强生成技术,EgoNormia可将模型性能提升9.4%,为未来研究提供方向。
来源:https://mp.weixin.qq.com/s/DWp5iZCiCz5JLgBc70wb7A
页: [1]
查看完整版本: EgoNormia:评估AI社会规范理解新基准