OpenAI新研究:o1增加推理时间就能防攻击
OpenAI最新研究表明,在不进行对抗性训练的情况下,通过增加推理时计算量可显著提升大语言模型的对抗稳健性。研究考察了多种攻击方式,包括Many-shot攻击、Soft token攻击等,实验结果表明,随着推理时间计算量增加,模型抵御攻击的成功率普遍提高。然而,研究也指出其局限性,仅涉及有限任务和计算范围,面对特定攻击时可能无效。这一发现为提高模型安全性提供了新思路。来源:https://mp.weixin.qq.com/s/OZodcyfFFRm-TX61bq4cVA
页:
[1]