合成数据的「毒」与「药」,模型崩溃有何新解?

[复制链接]
周大 发表于 2025-8-30 14:59:19 | 显示全部楼层 |阅读模式
2025年,合成数据研究取得重要进展。学者系统揭示了模型在合成数据自循环训练下的“崩溃”机制:模型逐步丢失真实数据分布信息,输出趋于同质化。牛津、剑桥等团队发现该现象影响语言模型、VAE、GMM等多种模型。不过斯坦福与哈佛研究指出,多数崩溃实验基于非现实假设,在真实训练条件下可通过引入真实数据缓解。与此同时,合成数据在预训练、微调等阶段发挥关键作用,业界已建立较完整的应用框架,并提出如“Token-Level Editing”、“黄金比例混合”等策略以避免模型退化。
来源:https://mp.weixin.qq.com/s/LvNjRXAw0fsiShOiD0IZqg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:44 , Processed in 0.304499 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表