大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
一项由港科大(广州)、北大等机构联合发布的中文网页能力测试集BrowseComp-ZH显示,主流大模型在中文互联网复杂检索任务中表现不佳,如GPT-4o准确率仅为6.2%,多数模型低于10%,即便是最佳的OpenAI DeepResearch也仅达42.9%。测试揭示四大问题:单纯依赖记忆效果差、推理能力强的模型更优、多轮检索胜过单次、搜索功能可能误导模型。该数据集已开源,旨在助力构建真正“会用中文上网”的智能体。来源:https://mp.weixin.qq.com/s/E8nLGUhbEPi0Z5E8RG4tew
页:
[1]