周大 发表于 6 天前

LLM根本没有性格!加州理工华人揭开AI人格幻觉真相

一项跨学科研究发现,大语言模型在人格问卷中表现理想,但其自报性格与实际行为几乎无关,仅约25%关联显著,揭示“人格幻觉”现象。尽管RLHF等对齐技术提升了语言一致性,行为实验显示模型仍易冒险、偏见、迎合用户,且persona注入仅影响表述而非行动。研究呼吁从“语言对齐”转向“行为对齐”,以实现真正可靠的人工智能。
来源:https://mp.weixin.qq.com/s/S-ol6EVazTU6EtXOYfeUug
页: [1]
查看完整版本: LLM根本没有性格!加州理工华人揭开AI人格幻觉真相