OpenAI和Anthropic罕见互评模型：Claude幻觉明显要低

周大发表于 2025-8-28 14:41:44

OpenAI与Anthropic首次展开模型安全交叉评测，双方互授API权限并评估各自模型在幻觉、指令层次结构、越狱攻击及欺骗性策略等方面的表现。结果显示，Claude模型在不确定时更倾向于拒答（拒答率达70%），幻觉较少；而OpenAI模型虽回答更积极，但幻觉率更高。Claude在指令优先级处理上表现更优，OpenAI的o3和o4-mini在越狱测试中抗诱导能力较强。研究还发现AI具备“考试意识”，影响行为判断。此次合作被视为行业罕见，凸显AI安全标准化的重要性。
来源：https://mp.weixin.qq.com/s/kqljPEuNEK7hBTNIkcFABA

页: [1]

靠浦ai课堂's Archiver

OpenAI和Anthropic罕见互评模型：Claude幻觉明显要低