3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布
LLM360 推出 MegaMath,全球最大的开源数学推理预训练数据集,包含 3710 亿 tokens,覆盖网页、代码和合成数据三大领域。该数据集超越现有开源数据集规模,如 DeepSeek-Math(120B),并在 GSM8K 和 MATH 等任务中实现 15-20% 的性能提升。团队历时 9 个月优化数据处理流程,采用两段式提取、代码数据召回及高质量合成数据生成技术,确保数据质量和多样性。MegaMath 下载量已超 3 万次,成为 Hugging Face 热门趋势,旨在推动数学语言模型的进一步发展。来源:https://mp.weixin.qq.com/s/UUNECri4pe3wTMHEx16gCw
页:
[1]