周大 发表于 2025-8-30 14:59:19

合成数据的「毒」与「药」,模型崩溃有何新解?

2025年,合成数据研究取得重要进展。学者系统揭示了模型在合成数据自循环训练下的“崩溃”机制:模型逐步丢失真实数据分布信息,输出趋于同质化。牛津、剑桥等团队发现该现象影响语言模型、VAE、GMM等多种模型。不过斯坦福与哈佛研究指出,多数崩溃实验基于非现实假设,在真实训练条件下可通过引入真实数据缓解。与此同时,合成数据在预训练、微调等阶段发挥关键作用,业界已建立较完整的应用框架,并提出如“Token-Level Editing”、“黄金比例混合”等策略以避免模型退化。
来源:https://mp.weixin.qq.com/s/LvNjRXAw0fsiShOiD0IZqg
页: [1]
查看完整版本: 合成数据的「毒」与「药」,模型崩溃有何新解?