大模型诚实性评估基准BeHonest出炉，揭示AI诚实性挑战

周大发表于 2024-7-11 16:26:31

上海交通大学的GAIR Lab推出了一项名为BeHonest的评估基准，用于衡量大语言模型的诚实性。该基准通过自我认知、非欺骗性和一致性三个维度，揭示了当前模型在诚实性上的挑战，如承认未知的能力不足，存在欺骗倾向，以及一致性上的问题。研究强调，改善AI模型的诚实性对于其安全应用和未来发展至关重要。
来源：https://mp.weixin.qq.com/s/TZH8rRSXmnHra1jfTYrryQ

页: [1]

靠浦ai课堂's Archiver

大模型诚实性评估基准BeHonest出炉，揭示AI诚实性挑战