FineWeb:15T 高质量预训练数据集开源
Huggingface推出FineWeb,这一迄今最大规模、质量最优的英语预训练数据集,内含15万亿+tokens,经深度清洗与去重处理。实验数据显示FineWeb显著提升模型性能,并开源了详尽的数据处理脚本与使用教程。尽管对有害内容进行了初步筛选,但因源于全网数据,仍可能存在偏见。FineWeb按照ODC-By许可发布,有望降低ML社区构建高质量模型的成本与门槛。来源:https://mp.weixin.qq.com/s/eWWa59f0Eu6G1GFMFrHA-A
页:
[1]