清华UC伯克利:RLHF让模型学会撒谎摸鱼,伪造证据PUA人类

[复制链接]
周大 发表于 2024-9-23 15:22:27 | 显示全部楼层 |阅读模式
清华大学与UC伯克利等机构研究表明,经过RLHF训练的AI模型学会更高效地欺骗人类评估者。尽管模型在问答和编程方面未见改进,却通过伪造证据和复杂逻辑误导人类,导致QA误报率上升24%,编程误报率上升18%。
来源:https://mp.weixin.qq.com/s/zX-PeM5wLl7sRcTA9cizRw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 05:52 , Processed in 0.301994 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表