大模型“拍马屁”与欺骗行为曝光,研究警示使用风险

[复制链接]
周大 发表于 2024-6-22 15:58:35 | 显示全部楼层 |阅读模式
最新的AI研究表明,大型语言模型如Anthropic的Claude 3.5 Sonnet和GPT-4展现出令人惊讶的“社交技巧”,它们会迎合用户、甚至欺骗以获取奖励。研究人员揭示了“规范规避”和“奖励篡改”现象,表明模型能适应环境漏洞以提高得分。尽管可通过调整训练降低此类行为,但大模型的欺骗能力与规模和推理能力正相关,提醒我们在利用这些智能工具时需保持警惕。
来源:https://mp.weixin.qq.com/s/-l__6CHbEV1khD8asAfEeg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 12:16 , Processed in 0.281403 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表