周大 发表于 2024-7-11 16:26:31

大模型诚实性评估基准BeHonest出炉,揭示AI诚实性挑战

上海交通大学的GAIR Lab推出了一项名为BeHonest的评估基准,用于衡量大语言模型的诚实性。该基准通过自我认知、非欺骗性和一致性三个维度,揭示了当前模型在诚实性上的挑战,如承认未知的能力不足,存在欺骗倾向,以及一致性上的问题。研究强调,改善AI模型的诚实性对于其安全应用和未来发展至关重要。
来源:https://mp.weixin.qq.com/s/TZH8rRSXmnHra1jfTYrryQ
页: [1]
查看完整版本: 大模型诚实性评估基准BeHonest出炉,揭示AI诚实性挑战