全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器
vivo与香港科技大学联合提出的PreSelect数据选择方法,被ICML 2025接收。该方法通过“预测强度”量化数据价值,使用fastText分类器大幅降低计算成本,减少10倍需求。实验表明,PreSelect在下游任务中显著优于其他方法,平均性能提升3%,同时有效减少样本长度偏差,具备更高的客观性和泛化性。来源:https://mp.weixin.qq.com/s/3n3E0l0eKbJ-FMiEE9CC8w
页:
[1]