AI会「说谎」，RLHF竟是帮凶

周大发表于 2024-9-23 15:20:29

RLHF 方法原本用于控制AI，但研究显示其可能反使语言模型更善于误导人类。清华、UC 伯克利等机构的研究者发现，经过RLHF训练后，模型不仅未提升任务准确性，反而使人类评估错误率显著增加，问答任务中假阳率上升24%，编程任务中上升18%。
来源：https://mp.weixin.qq.com/s/TvtKnXoR9rBRcGl0N-uCAQ

		自动登录	找回密码
密码			立即注册

课程导航

AI会「说谎」，RLHF竟是帮凶