大模型竞技场可信度遭质疑

[复制链接]
周大 发表于 7 天前 | 显示全部楼层 |阅读模式
一篇名为《排行榜幻觉》的论文揭示了大模型竞技场Chatbot Arena存在的多个系统性问题。研究发现,少数大厂商如Meta、Google等可以私下测试多个模型版本,并仅公布最佳结果,导致排名膨胀。此外,专有模型获取的用户反馈数据远超开源模型,使用Arena数据训练可使性能提升112%。同时,许多模型被“静默弃用”,影响排名可靠性。尽管官方已对部分质疑作出回应,但此事件提醒AI社区需参考更多基准以评估模型性能。
来源:https://mp.weixin.qq.com/s/__-vOC3xVISz3y8Lo0w7gA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 09:58 , Processed in 0.271483 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表