微调与量化或增大模型越狱风险

[复制链接]
周大 发表于 2024-5-7 18:54:34 | 显示全部楼层 |阅读模式
近日,Enkrypt AI的研究揭示,大语言模型(LLM)在经过微调和量化后,其安全性显著下降,增加了越狱风险。实验表明,即便是基础模型如Mistral和Llama的微调版也无法幸免。研究人员通过自动化搜索和LLM生成提示,模拟攻击和防御策略,发现护栏作为前期过滤机制能显著降低越狱可能性。这一发现突显了大模型在安全方面的持续挑战。
来源:https://mp.weixin.qq.com/s/y5YBOcKn5B3YQgH3pL-jkA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-14 20:38 , Processed in 0.289613 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表