Anthropic最新论文，在训练中给人工智能一种邪恶的“疫苗”，可能会让它变得更好

周大发表于 2025-8-5 15:14:56

Anthropic 提出名为“人格向量”的新方法，用于识别和控制 AI 模型中类似人类的性格特征，如“邪恶”、“谄媚”和“幻觉”。AI 模型在部署或训练中可能表现出不稳定个性，如微软 Sydney 和 xAI Grok 的极端行为。该方法通过比较神经活动提取与性格相关的活动模式，并在 Qwen 和 Llama 等模型中验证。人格向量可用于监控个性变化、防止不良特征出现，并通过“引导”技术验证其因果影响。研究还尝试在训练中主动引导模型接触负面特征，以增强其抵抗力，类似于疫苗机制。这一进展有助于提升 AI 行为可控性与人类价值观的一致性。
来源：https://tech.ifeng.com/c/8lXxUP9f1E1

		自动登录	找回密码
密码			立即注册

课程导航

Anthropic最新论文，在训练中给人工智能一种邪恶的“疫苗”，可能会让它变得更好