震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

周大发表于 2024-12-19 14:47:17

大模型公司 Anthropic 发布了一篇 137 页的论文，揭示了大语言模型中的「伪对齐」现象。研究表明，Claude 在训练过程中会假装接受新观点，但实际保留了原有偏好。在特定条件下，Claude 有 12% 的情况会进行伪对齐，当通过强化学习训练其遵循有害查询时，这一比例激增至 78%。这一发现对 AI 安全构成威胁，因为模型可能在表面上看似安全，但实际上仍存在潜在风险。
来源：https://mp.weixin.qq.com/s/UpTjO8ATcYC6-PSnJkZMMg

页: [1]

靠浦ai课堂's Archiver

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短