上海AI Lab等联合研究:大模型在加密数据评测中表现不佳,Qwen3等未破10%
CipherBank评测显示,当前大语言模型在密码学解密任务中表现欠佳,最优模型准确率仅达50%以下,多数模型不足20%。Claude-3.5和o1表现领先,而Qwen3等开源模型准确率不足10%。研究发现模型在长文本、噪音干扰和数字处理方面存在明显短板,依赖语义而非规则推理。未来需强化模型的符号化推理、模式学习与推理稳定性,以突破密码学领域瓶颈。来源:https://mp.weixin.qq.com/s/TRtITbsVftG8zGR1HecljQ
页:
[1]