GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

周大发表于 2024-12-11 15:07:06

香港中文大学、斯坦福大学等联合发布了AV-Odyssey基准测试，涵盖26个视听任务，涉及7种声音属性，10个领域。尽管GPT-4o在ASR任务上达到97%的正确率，但在音量识别上却表现极差，准确率接近随机猜测。研究团队还提出了DeafTest，专门测试多模态大模型的基础听觉能力。AV-Odyssey基准测试显示现有模型在视听整合能力上的显著局限性，为未来改进提供了方向。
来源：https://mp.weixin.qq.com/s/4beDnPqkUdXUlXSH9elDoA

页: [1]

靠浦ai课堂's Archiver

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题