「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

周大发表于 2024-10-7 13:31:46

Reflection 70B在发布一个月后被曝其基准测试结果不可复现，引发广泛质疑。开发者承认错误并发布复盘报告，指出模型性能未达预期，部分原因是初始代码中的bug。尽管修正后性能略有下降，但仍低于原始Llama 3.1 70B。Sahil Chaudhary详细解释了问题原因，并公开了模型权重和训练数据，但社区仍质疑模型存在数据污染和套壳行为。
来源：https://mp.weixin.qq.com/s/vc1vN4H2ZgWLVCW4pzjNQw

页: [1]

靠浦ai课堂's Archiver

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」