「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
Reflection 70B在发布一个月后被曝其基准测试结果不可复现,引发广泛质疑。开发者承认错误并发布复盘报告,指出模型性能未达预期,部分原因是初始代码中的bug。尽管修正后性能略有下降,但仍低于原始Llama 3.1 70B。Sahil Chaudhary详细解释了问题原因,并公开了模型权重和训练数据,但社区仍质疑模型存在数据污染和套壳行为。来源:https://mp.weixin.qq.com/s/vc1vN4H2ZgWLVCW4pzjNQw
页:
[1]