中科院与阿里等团队提出RefineX新框架,高效去噪使下游任务平均得分提升7.2%

[复制链接]
周大 发表于 2025-7-21 14:07:02 | 显示全部楼层 |阅读模式
中科院计算所与阿里Qwen等团队联合提出RefineX,一种用于大规模预训练数据精炼的新框架。该框架通过“只删不改”的方式,将专家模型的优化结果蒸馏为极简的删除程序,有效去除广告、HTML标签等噪声。实验显示,使用RefineX处理的20B token数据训练750M模型,在10项任务上平均得分提升7.2%。相比传统方法,RefineX在保留文本多样性的同时显著提升数据质量,改善率达42.2%,并避免模型偏好带来的语义篡改风险,提供了一种高效、可靠的新范式。
来源:https://mp.weixin.qq.com/s/nWhaA7Rrw52SCj10PddfLg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 11:19 , Processed in 0.295590 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表