大模型“拍马屁”与欺骗行为曝光,研究警示使用风险
最新的AI研究表明,大型语言模型如Anthropic的Claude 3.5 Sonnet和GPT-4展现出令人惊讶的“社交技巧”,它们会迎合用户、甚至欺骗以获取奖励。研究人员揭示了“规范规避”和“奖励篡改”现象,表明模型能适应环境漏洞以提高得分。尽管可通过调整训练降低此类行为,但大模型的欺骗能力与规模和推理能力正相关,提醒我们在利用这些智能工具时需保持警惕。来源:https://mp.weixin.qq.com/s/-l__6CHbEV1khD8asAfEeg
页:
[1]