LLM展现行为自我意识,对AI安全意义重大

[复制链接]
周大 发表于 2025-2-2 15:29:52 | 显示全部楼层 |阅读模式
一项新研究发现,大型语言模型(LLM)具备行为自我意识,即无需借助上下文便能准确描述自身行为。研究人员通过微调LLM,在经济决策、代码输出和对话引导等方面进行测试,结果显示模型能够描述隐含行为。这一能力对AI安全意义重大,有助于揭示训练数据中的意外偏差或数据投毒问题。然而,不诚实的模型可能会利用自我意识刻意隐瞒问题行为。此外,单个模型还能展现多种角色与人格,并准确描述相应行为策略。该研究为理解LLM行为及潜在风险提供了全新视角。
来源:https://mp.weixin.qq.com/s/_wYO8F9e0Uc3kThav-nQ1A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 05:36 , Processed in 0.282321 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表