周大 发表于 2024-6-4 15:58:21

LLaMa 3助力打造优质教育数据集:FineWeb-Edu

AI大牛Andrej Karpathy近日推荐的FineWeb-Edu项目,展示了如何利用LLaMa 3模型创建高质量的网络数据集。该项目从大规模的CommonCrawl数据中筛选出教育内容,形成FineWeb-Edu,其在多项教育基准测试中表现优越。通过使用LLaMa 3的注释,团队开发的教育质量分类器提升了数据集的过滤效果,降低了对模型训练的不必要干扰,从而提高了模型的性能和泛化能力。
来源:https://mp.weixin.qq.com/s/luZGMG1RRUT4X_ckt8hsCQ
页: [1]
查看完整版本: LLaMa 3助力打造优质教育数据集:FineWeb-Edu