上海交大等团队研究揭扩散语言模型安全缺陷,DIJA攻击框架令多款dLLMs破防
扩散语言模型(dLLMs)因其并行解码与双向建模特性成为生成模型新方向,但其安全性面临挑战。最新研究提出DIJA攻击框架,无需训练或修改参数即可诱导dLLMs生成非法内容。团队通过掩码交错提示词实现全自动攻击,在多项测试中DIJA攻击成功率显著高于现有方法。研究指出,dLLMs因并行解码机制和局部安全对齐缺失,难以防御此类攻击。论文呼吁建立“掩码安全性”研究方向,推动dLLM专属安全机制发展。该成果由上海交通大学、上海人工智能实验室与中山大学联合完成。来源:https://mp.weixin.qq.com/s/nfyZFXN7ku07_9tTzG-W9Q
页:
[1]