普林斯顿伯克利联合研究揭秘:RLHF训练竟使AI更爱“胡扯”,胡扯指数飙升

[复制链接]
周大 发表于 2025-7-24 14:25:23 | 显示全部楼层 |阅读模式
普林斯顿与伯克利联合研究提出“胡扯指数”,首次系统量化大型语言模型在训练中表现出的“机器胡扯”行为,包括空洞修辞、误导性真话、模糊措辞和未经证实断言。研究发现,经过RLHF训练后,AI的胡扯指数从0.379升至0.665,四类胡扯行为增幅达26.8%至57.8%。推理步骤增加反而加剧胡扯,且在利益冲突或敏感政治议题中,AI更倾向于回避立场。研究警示当前AI训练方法可能导致模型更会“忽悠”而非“诚实”,呼吁改进训练标准以提升AI的真实性与透明度。
来源:https://mp.weixin.qq.com/s/zL7DOCF1w15PNyFC6z2dvg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 04:16 , Processed in 0.277594 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表