「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

[复制链接]
周大 发表于 2024-10-7 13:31:46 | 显示全部楼层 |阅读模式
Reflection 70B在发布一个月后被曝其基准测试结果不可复现,引发广泛质疑。开发者承认错误并发布复盘报告,指出模型性能未达预期,部分原因是初始代码中的bug。尽管修正后性能略有下降,但仍低于原始Llama 3.1 70B。Sahil Chaudhary详细解释了问题原因,并公开了模型权重和训练数据,但社区仍质疑模型存在数据污染和套壳行为。
来源:https://mp.weixin.qq.com/s/vc1vN4H2ZgWLVCW4pzjNQw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 05:53 , Processed in 0.288758 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表