上海交大等团队研究揭扩散语言模型安全缺陷,DIJA攻击框架令多款dLLMs破防

[复制链接]
周大 发表于 2025-7-23 14:16:37 | 显示全部楼层 |阅读模式
扩散语言模型(dLLMs)因其并行解码与双向建模特性成为生成模型新方向,但其安全性面临挑战。最新研究提出DIJA攻击框架,无需训练或修改参数即可诱导dLLMs生成非法内容。团队通过掩码交错提示词实现全自动攻击,在多项测试中DIJA攻击成功率显著高于现有方法。研究指出,dLLMs因并行解码机制和局部安全对齐缺失,难以防御此类攻击。论文呼吁建立“掩码安全性”研究方向,推动dLLM专属安全机制发展。该成果由上海交通大学、上海人工智能实验室与中山大学联合完成。
来源:https://mp.weixin.qq.com/s/nfyZFXN7ku07_9tTzG-W9Q

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 08:14 , Processed in 0.277161 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表