大模型竞技场可信度遭质疑
一篇名为《排行榜幻觉》的论文揭示了大模型竞技场Chatbot Arena存在的多个系统性问题。研究发现,少数大厂商如Meta、Google等可以私下测试多个模型版本,并仅公布最佳结果,导致排名膨胀。此外,专有模型获取的用户反馈数据远超开源模型,使用Arena数据训练可使性能提升112%。同时,许多模型被“静默弃用”,影响排名可靠性。尽管官方已对部分质疑作出回应,但此事件提醒AI社区需参考更多基准以评估模型性能。来源:https://mp.weixin.qq.com/s/__-vOC3xVISz3y8Lo0w7gA
页:
[1]