周大 发表于 2024-5-7 18:54:34

微调与量化或增大模型越狱风险

近日,Enkrypt AI的研究揭示,大语言模型(LLM)在经过微调和量化后,其安全性显著下降,增加了越狱风险。实验表明,即便是基础模型如Mistral和Llama的微调版也无法幸免。研究人员通过自动化搜索和LLM生成提示,模拟攻击和防御策略,发现护栏作为前期过滤机制能显著降低越狱可能性。这一发现突显了大模型在安全方面的持续挑战。
来源:https://mp.weixin.qq.com/s/y5YBOcKn5B3YQgH3pL-jkA
页: [1]
查看完整版本: 微调与量化或增大模型越狱风险