周大 发表于 2024-8-31 13:49:35

Lmsys大模型竞技场规则更新,奥特曼刷分小技巧无效了

Lmsys大模型竞技场更新评分规则,降低回答长度和风格权重,GPT-4o mini、Grok-2系列等小模型排名下滑,Claude系列和Llama-3.1-405b大模型排名上升。新算法通过Bradley-Terry回归分析模型能力,控制混杂变量影响,调整后的榜单更符合网友主观印象。
来源:https://mp.weixin.qq.com/s/adpNAI4NBNKzxe6afpJXmQ
页: [1]
查看完整版本: Lmsys大模型竞技场规则更新,奥特曼刷分小技巧无效了