大模型竞技场可信度遭质疑

周大发表于 2025-5-2 15:58:30

一篇名为《排行榜幻觉》的论文揭示了大模型竞技场Chatbot Arena存在的多个系统性问题。研究发现，少数大厂商如Meta、Google等可以私下测试多个模型版本，并仅公布最佳结果，导致排名膨胀。此外，专有模型获取的用户反馈数据远超开源模型，使用Arena数据训练可使性能提升112%。同时，许多模型被“静默弃用”，影响排名可靠性。尽管官方已对部分质疑作出回应，但此事件提醒AI社区需参考更多基准以评估模型性能。
来源：https://mp.weixin.qq.com/s/__-vOC3xVISz3y8Lo0w7gA

页: [1]

靠浦ai课堂's Archiver

大模型竞技场可信度遭质疑