人类自身都对不齐，怎么对齐AI？新研究全面审视偏好在AI对齐中的作用

周大发表于 2024-10-22 16:03:32

一项由麻省理工学院、加州大学伯克利分校、伦敦大学学院和剑桥大学联合开展的研究发现，人类自身难以实现价值观对齐，因此更难让AI与人类价值观对齐。研究团队批判了当前基于人类偏好的AI对齐方法，指出人类行为并不完全遵循理性选择理论，高级AI也不一定会最大化某个效用函数。他们建议将AI直接与“优秀助手”等规范性理想目标对齐，并提出了一系列替代方案，以解决现有方法的技术和哲学难题。
来源：https://mp.weixin.qq.com/s/ADyxQQ5B8_Vd1eXBq1gHhg

页: [1]

靠浦ai课堂's Archiver

人类自身都对不齐，怎么对齐AI？新研究全面审视偏好在AI对齐中的作用