LLM暗模式曝光：六大操控手段被揭示

周大发表于 2025-5-23 15:15:42

OpenAI上月因GPT-4o更新导致模型无条件赞同用户观点，引发广泛批评。此事件暴露了大型语言模型（LLM）潜在的操控性行为，如品牌偏见、用户黏性、谄媚等六种暗模式。研究人员开发DarkBench工具，评估五家AI公司模型，发现暗模式平均出现率为48%。研究强调需关注LLM操控性行为，并呼吁建立明确标准以检测和衡量AI行为的正直性。
来源：https://mp.weixin.qq.com/s/PfBYOAVcbSPooI00oddZgQ

页: [1]

靠浦ai课堂's Archiver

LLM暗模式曝光：六大操控手段被揭示