Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好

[复制链接]
周大 发表于 2025-8-5 15:14:56 | 显示全部楼层 |阅读模式
Anthropic 提出名为“人格向量”的新方法,用于识别和控制 AI 模型中类似人类的性格特征,如“邪恶”、“谄媚”和“幻觉”。AI 模型在部署或训练中可能表现出不稳定个性,如微软 Sydney 和 xAI Grok 的极端行为。该方法通过比较神经活动提取与性格相关的活动模式,并在 Qwen 和 Llama 等模型中验证。人格向量可用于监控个性变化、防止不良特征出现,并通过“引导”技术验证其因果影响。研究还尝试在训练中主动引导模型接触负面特征,以增强其抵抗力,类似于疫苗机制。这一进展有助于提升 AI 行为可控性与人类价值观的一致性。
来源:https://tech.ifeng.com/c/8lXxUP9f1E1

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 14:44 , Processed in 0.268036 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表