LLM展现行为自我意识,对AI安全意义重大
一项新研究发现,大型语言模型(LLM)具备行为自我意识,即无需借助上下文便能准确描述自身行为。研究人员通过微调LLM,在经济决策、代码输出和对话引导等方面进行测试,结果显示模型能够描述隐含行为。这一能力对AI安全意义重大,有助于揭示训练数据中的意外偏差或数据投毒问题。然而,不诚实的模型可能会利用自我意识刻意隐瞒问题行为。此外,单个模型还能展现多种角色与人格,并准确描述相应行为策略。该研究为理解LLM行为及潜在风险提供了全新视角。来源:https://mp.weixin.qq.com/s/_wYO8F9e0Uc3kThav-nQ1A
页:
[1]