FineWeb:15T 高质量预训练数据集开源

[复制链接]
周大 发表于 2024-5-5 16:10:55 | 显示全部楼层 |阅读模式
Huggingface推出FineWeb,这一迄今最大规模、质量最优的英语预训练数据集,内含15万亿+tokens,经深度清洗与去重处理。实验数据显示FineWeb显著提升模型性能,并开源了详尽的数据处理脚本与使用教程。尽管对有害内容进行了初步筛选,但因源于全网数据,仍可能存在偏见。FineWeb按照ODC-By许可发布,有望降低ML社区构建高质量模型的成本与门槛。
来源:https://mp.weixin.qq.com/s/eWWa59f0Eu6G1GFMFrHA-A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-6 07:14 , Processed in 0.276466 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表