周大 发表于 2024-12-11 15:07:06

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

香港中文大学、斯坦福大学等联合发布了AV-Odyssey基准测试,涵盖26个视听任务,涉及7种声音属性,10个领域。尽管GPT-4o在ASR任务上达到97%的正确率,但在音量识别上却表现极差,准确率接近随机猜测。研究团队还提出了DeafTest,专门测试多模态大模型的基础听觉能力。AV-Odyssey基准测试显示现有模型在视听整合能力上的显著局限性,为未来改进提供了方向。
来源:https://mp.weixin.qq.com/s/4beDnPqkUdXUlXSH9elDoA
页: [1]
查看完整版本: GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题