微调与量化或增大模型越狱风险

周大发表于 2024-5-7 18:54:34

近日，Enkrypt AI的研究揭示，大语言模型（LLM）在经过微调和量化后，其安全性显著下降，增加了越狱风险。实验表明，即便是基础模型如Mistral和Llama的微调版也无法幸免。研究人员通过自动化搜索和LLM生成提示，模拟攻击和防御策略，发现护栏作为前期过滤机制能显著降低越狱可能性。这一发现突显了大模型在安全方面的持续挑战。
来源：https://mp.weixin.qq.com/s/y5YBOcKn5B3YQgH3pL-jkA

页: [1]

靠浦ai课堂's Archiver

微调与量化或增大模型越狱风险