大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
一项由港科大(广州)、北大等机构联合发布的中文网页能力测试集BrowseComp-ZH显示,主流大模型在中文互联网复杂检索任务中表现不佳,如GPT-4o准确率仅为6.2%,多数模型低于10%,即便是最佳的OpenAI DeepResearch也仅达42.9%。测试揭示四大问题:单纯依赖记忆效果差、推理能力强的模型更优、多轮检索胜过单次、搜索功能可能误导模型。该数据集已开源,旨在助力构建真正“会用中文上网”的智能体。
来源:https://mp.weixin.qq.com/s/E8nLGUhbEPi0Z5E8RG4tew

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 06:03 , Processed in 0.284817 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表