上海交大等团队研究揭扩散语言模型安全缺陷，DIJA攻击框架令多款dLLMs破防

周大发表于 2025-7-23 14:16:37

扩散语言模型（dLLMs）因其并行解码与双向建模特性成为生成模型新方向，但其安全性面临挑战。最新研究提出DIJA攻击框架，无需训练或修改参数即可诱导dLLMs生成非法内容。团队通过掩码交错提示词实现全自动攻击，在多项测试中DIJA攻击成功率显著高于现有方法。研究指出，dLLMs因并行解码机制和局部安全对齐缺失，难以防御此类攻击。论文呼吁建立“掩码安全性”研究方向，推动dLLM专属安全机制发展。该成果由上海交通大学、上海人工智能实验室与中山大学联合完成。
来源：https://mp.weixin.qq.com/s/nfyZFXN7ku07_9tTzG-W9Q

		自动登录	找回密码
密码			立即注册

课程导航

上海交大等团队研究揭扩散语言模型安全缺陷，DIJA攻击框架令多款dLLMs破防