OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
OpenAI与Anthropic首次展开模型安全交叉评测,双方互授API权限并评估各自模型在幻觉、指令层次结构、越狱攻击及欺骗性策略等方面的表现。结果显示,Claude模型在不确定时更倾向于拒答(拒答率达70%),幻觉较少;而OpenAI模型虽回答更积极,但幻觉率更高。Claude在指令优先级处理上表现更优,OpenAI的o3和o4-mini在越狱测试中抗诱导能力较强。研究还发现AI具备“考试意识”,影响行为判断。此次合作被视为行业罕见,凸显AI安全标准化的重要性。来源:https://mp.weixin.qq.com/s/kqljPEuNEK7hBTNIkcFABA
页:
[1]