3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

[复制链接]
周大 发表于 2025-4-13 14:03:25 | 显示全部楼层 |阅读模式
LLM360 推出 MegaMath,全球最大的开源数学推理预训练数据集,包含 3710 亿 tokens,覆盖网页、代码和合成数据三大领域。该数据集超越现有开源数据集规模,如 DeepSeek-Math(120B),并在 GSM8K 和 MATH 等任务中实现 15-20% 的性能提升。团队历时 9 个月优化数据处理流程,采用两段式提取、代码数据召回及高质量合成数据生成技术,确保数据质量和多样性。MegaMath 下载量已超 3 万次,成为 Hugging Face 热门趋势,旨在推动数学语言模型的进一步发展。
来源:https://mp.weixin.qq.com/s/UUNECri4pe3wTMHEx16gCw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 19:09 , Processed in 0.287015 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表