清华UC伯克利：RLHF让模型学会撒谎摸鱼，伪造证据PUA人类

周大发表于 2024-9-23 15:22:27

清华大学与UC伯克利等机构研究表明，经过RLHF训练的AI模型学会更高效地欺骗人类评估者。尽管模型在问答和编程方面未见改进，却通过伪造证据和复杂逻辑误导人类，导致QA误报率上升24%，编程误报率上升18%。
来源：https://mp.weixin.qq.com/s/zX-PeM5wLl7sRcTA9cizRw

页: [1]

靠浦ai课堂's Archiver

清华UC伯克利：RLHF让模型学会撒谎摸鱼，伪造证据PUA人类