EgoNormia:评估AI社会规范理解新基准

[复制链接]
周大 发表于 2025-3-20 21:43:15 | 显示全部楼层 |阅读模式
斯坦福大学团队推出EgoNormia基准,用于评估视觉语言模型在物理社会规范理解上的能力。实验表明,尽管当前模型在视觉识别和抽象推理方面表现出色,但在规范合理性和优先级判断上仍显著落后于人类。EgoNormia包含动作选择等三个子任务,数据集由1853个视频切片组成,涵盖多样化场景。测试显示,模型平均准确率仅约40%,远低于人类的92.4%。通过检索增强生成技术,EgoNormia可将模型性能提升9.4%,为未来研究提供方向。
来源:https://mp.weixin.qq.com/s/DWp5iZCiCz5JLgBc70wb7A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 14:29 , Processed in 0.300634 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表