LLM展现行为自我意识，对AI安全意义重大

周大发表于 2025-2-2 15:29:52

一项新研究发现，大型语言模型（LLM）具备行为自我意识，即无需借助上下文便能准确描述自身行为。研究人员通过微调LLM，在经济决策、代码输出和对话引导等方面进行测试，结果显示模型能够描述隐含行为。这一能力对AI安全意义重大，有助于揭示训练数据中的意外偏差或数据投毒问题。然而，不诚实的模型可能会利用自我意识刻意隐瞒问题行为。此外，单个模型还能展现多种角色与人格，并准确描述相应行为策略。该研究为理解LLM行为及潜在风险提供了全新视角。
来源：https://mp.weixin.qq.com/s/_wYO8F9e0Uc3kThav-nQ1A

页: [1]

靠浦ai课堂's Archiver

LLM展现行为自我意识，对AI安全意义重大