ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

[复制链接]
周大 发表于 2025-8-26 14:00:10 | 显示全部楼层 |阅读模式
来自清华大学、南洋理工大学和蚂蚁集团的研究团队发现,GPT-4系列模型的中文词表中高达46.6%存在污染,包含色情、赌博等不当词汇。这些污染词导致模型在相关任务中性能下降约50%。研究团队首次系统定义了中文污染词(PoC tokens),并开发了识别准确率达97.3%的检测模型。他们还提出通过词表反推训练数据污染程度的方法,为大规模语料治理提供轻量化方案。研究指出,GPT-4o的中文训练语料中“波*野结衣”相关内容占比达0.5%,是常用词“您好”的2.6倍。哈佛大学同期研究则表明,适量污染数据或有助于模型安全对齐,提示未来需在治理污染与利用其潜在价值之间寻求平衡。
来源:https://mp.weixin.qq.com/s/_8xVPYyzZhvPPTSiwLmQeg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:57 , Processed in 0.295038 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表