中科院与阿里等团队提出RefineX新框架,高效去噪使下游任务平均得分提升7.2%
中科院计算所与阿里Qwen等团队联合提出RefineX,一种用于大规模预训练数据精炼的新框架。该框架通过“只删不改”的方式,将专家模型的优化结果蒸馏为极简的删除程序,有效去除广告、HTML标签等噪声。实验显示,使用RefineX处理的20B token数据训练750M模型,在10项任务上平均得分提升7.2%。相比传统方法,RefineX在保留文本多样性的同时显著提升数据质量,改善率达42.2%,并避免模型偏好带来的语义篡改风险,提供了一种高效、可靠的新范式。来源:https://mp.weixin.qq.com/s/nWhaA7Rrw52SCj10PddfLg
页:
[1]