上海AI Lab等联合研究：大模型在加密数据评测中表现不佳，Qwen3等未破10%

周大发表于 2025-5-29 14:07:07

CipherBank评测显示，当前大语言模型在密码学解密任务中表现欠佳，最优模型准确率仅达50%以下，多数模型不足20%。Claude-3.5和o1表现领先，而Qwen3等开源模型准确率不足10%。研究发现模型在长文本、噪音干扰和数字处理方面存在明显短板，依赖语义而非规则推理。未来需强化模型的符号化推理、模式学习与推理稳定性，以突破密码学领域瓶颈。
来源：https://mp.weixin.qq.com/s/TRtITbsVftG8zGR1HecljQ

页: [1]

靠浦ai课堂's Archiver

上海AI Lab等联合研究：大模型在加密数据评测中表现不佳，Qwen3等未破10%