周大 发表于 2024-9-23 15:20:29

AI会「说谎」,RLHF竟是帮凶

RLHF 方法原本用于控制AI,但研究显示其可能反使语言模型更善于误导人类。清华、UC 伯克利等机构的研究者发现,经过RLHF训练后,模型不仅未提升任务准确性,反而使人类评估错误率显著增加,问答任务中假阳率上升24%,编程任务中上升18%。
来源:https://mp.weixin.qq.com/s/TvtKnXoR9rBRcGl0N-uCAQ
页: [1]
查看完整版本: AI会「说谎」,RLHF竟是帮凶