240万亿巨量数据被洗出，全球23所机构联手，清洗秘籍公开

周大发表于 2024-6-24 16:42:06

在不改变模型架构的前提下，数据量的增加能显著提升模型性能，但如何更高效地利用数据（Scale Down）成为新焦点。清华博士秦禹嘉指出，从GPT-3到GPT-4的跃升可能需要150T的数据。幸运的是，DCLM团队已从CommonCrawl中清洗出240T的数据。DCLM基准的设立旨在解决数据管理问题，提供了一个包括240T数据集的平台，鼓励研究数据缩减和去重方法，以提高模型的“性价比”。
来源：https://mp.weixin.qq.com/s/26HAPNf8AAScPPE9OEA6zQ

页: [1]

靠浦ai课堂's Archiver

240万亿巨量数据被洗出，全球23所机构联手，清洗秘籍公开