周大 发表于 2024-10-7 13:31:46

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

Reflection 70B在发布一个月后被曝其基准测试结果不可复现,引发广泛质疑。开发者承认错误并发布复盘报告,指出模型性能未达预期,部分原因是初始代码中的bug。尽管修正后性能略有下降,但仍低于原始Llama 3.1 70B。Sahil Chaudhary详细解释了问题原因,并公开了模型权重和训练数据,但社区仍质疑模型存在数据污染和套壳行为。
来源:https://mp.weixin.qq.com/s/vc1vN4H2ZgWLVCW4pzjNQw
页: [1]
查看完整版本: 「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」