全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器

[复制链接]
周大 发表于 2025-5-15 13:44:20 | 显示全部楼层 |阅读模式
vivo与香港科技大学联合提出的PreSelect数据选择方法,被ICML 2025接收。该方法通过“预测强度”量化数据价值,使用fastText分类器大幅降低计算成本,减少10倍需求。实验表明,PreSelect在下游任务中显著优于其他方法,平均性能提升3%,同时有效减少样本长度偏差,具备更高的客观性和泛化性。
来源:https://mp.weixin.qq.com/s/3n3E0l0eKbJ-FMiEE9CC8w

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-28 03:28 , Processed in 0.290509 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表