大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

周大发表于 2025-5-6 15:08:31

一项由港科大（广州）、北大等机构联合发布的中文网页能力测试集BrowseComp-ZH显示，主流大模型在中文互联网复杂检索任务中表现不佳，如GPT-4o准确率仅为6.2%，多数模型低于10%，即便是最佳的OpenAI DeepResearch也仅达42.9%。测试揭示四大问题：单纯依赖记忆效果差、推理能力强的模型更优、多轮检索胜过单次、搜索功能可能误导模型。该数据集已开源，旨在助力构建真正“会用中文上网”的智能体。
来源：https://mp.weixin.qq.com/s/E8nLGUhbEPi0Z5E8RG4tew

页: [1]

靠浦ai课堂's Archiver

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%