中科院与阿里等团队提出RefineX新框架，高效去噪使下游任务平均得分提升7.2%

周大发表于 2025-7-21 14:07:02

中科院计算所与阿里Qwen等团队联合提出RefineX，一种用于大规模预训练数据精炼的新框架。该框架通过“只删不改”的方式，将专家模型的优化结果蒸馏为极简的删除程序，有效去除广告、HTML标签等噪声。实验显示，使用RefineX处理的20B token数据训练750M模型，在10项任务上平均得分提升7.2%。相比传统方法，RefineX在保留文本多样性的同时显著提升数据质量，改善率达42.2%，并避免模型偏好带来的语义篡改风险，提供了一种高效、可靠的新范式。
来源：https://mp.weixin.qq.com/s/nWhaA7Rrw52SCj10PddfLg

页: [1]

靠浦ai课堂's Archiver

中科院与阿里等团队提出RefineX新框架，高效去噪使下游任务平均得分提升7.2%