如何在合成文本数据时避免模型崩溃？

周大发表于 2025-5-14 14:39:28

随着生成式人工智能发展，合成数据在大模型训练中的作用日益重要，但也可能引发“模型崩溃”。ICML 2025 上交大团队提出 Token-Level Editing 方法，通过微编辑真实数据生成高质量“半合成”数据，有效规避模型崩溃风险。研究表明，该方法可严格控制测试误差，并在多个实验阶段显著提升模型性能，具备广泛的实际应用潜力。
来源：https://mp.weixin.qq.com/s/AvgGplj7FXYhAsBxswI_8g

页: [1]

靠浦ai课堂's Archiver

如何在合成文本数据时避免模型崩溃？