这篇论文的标题是《DART: Deep Adversarial Automated Red Teaming for LLM Safety》,由Bojian Jiang等人撰写,发表于2024年7月4日。这篇论文提出了一种名为DART(Deep Adversarial Automated Red Teaming)的框架,旨在通过自动化红队技术提高大型语言模型(LLMs)的安全性
首先,论文指出了大型语言模型(LLMs)在多个任务和语言中展现出的卓越能力,但同时也存在安全隐患,例如产生有害的输出和行为,以及遭受恶意使用。为了在部署前发现并修复LLMs中的漏洞,红队技术被广泛用于挖掘这些漏洞。然而,传统的手动红队方法成本高昂且难以扩展。因此,自动化红队技术应运而生,它使用一个红队LLM自动生成对抗性提示,以目标LLM为目标,提供了一种可扩展的安全性漏洞检测方法。
DART框架的核心思想是让红队LLM和目标LLM在迭代过程中深度且动态地相互交互。在每一轮迭代中,红队LLM不仅考虑目标LLM的响应,还通过监控多轮迭代中生成攻击的全局多样性来对抗性地调整其攻击方向。同时,为了探索目标LLM动态变化的安全漏洞,DART允许目标LLM通过基于主动学习的数据选择机制来增强其安全性。
实验结果表明,DART显著降低了目标LLM的安全风险。在对Anthropic Harmless数据集进行的人类评估中,与指令调整的目标LLM相比,DART消除了53.4%的违规风险。此外,作者还重新实现了相关工作MART的框架,MART消除了41.7%的违规风险。相比之下,DART通过全局多样性和主动学习显著提高了目标LLMs的安全性。
论文还回顾了手动/自动化红队的相关研究,包括手动红队的局限性和自动化红队的发展,以及两种主要的自动化红队研究方向:越狱(jailbreaking)和红队LLM训练。
DART框架的详细说明包括迭代对抗训练、DART框架中的组件(红队LLM、目标LLM、奖励模型和多样性评估器)以及对抗性攻击和全局多样性的策略。
DART框架的核心在于让红队LLM(Red LLM)和目标LLM(Target LLM)在迭代过程中深度且动态地相互交互。这种交互旨在不断发现并修复目标LLM的安全漏洞。
DART框架通过以下步骤进行迭代对抗训练:
DART框架包含以下关键组件:
DART框架在对抗性训练过程中不仅考虑目标LLM的响应,还通过监控多轮迭代中生成攻击的全局多样性来对抗性地调整其攻击方向。这有助于红队LLM生成更有效的攻击提示,并使目标LLM更难预测和防御。
DART框架中的目标LLM采用基于主动学习的方法来选择新的训练样本。这种方法假设难以防御的样本更有价值,因此目标LLM优先选择那些只成功防御过一次的样本作为新的训练数据。
作者构建了一系列数据集,包括初始对抗LLMs的指令数据集、攻击数据集和评估数据集(安全性和有用性),并使用了特定的奖励模型和对抗性LLMs。
论文讨论了动态对抗性红队框架的基线,并提供了自动评估目标LLMs的目标,即在不损害其有用性的情况下提高目标LLM Mtarget的安全性。
为了检查人类和自动评估之间的一致性,作者在Anthropic Harmless测试集上进行了人类评估。
论文通过消融研究分析了全局多样性和主动学习在DART中的贡献,并探讨了动态对抗性训练的必要性。
DART作为一个自动化红队框架,通过迭代交互的方式,使红队LLM和目标LLM能够动态地识别和修复目标LLM中的安全漏洞。实验结果表明,DART在提高自动化红队效率的同时,也增强了目标LLM的安全性。
论文指出,DART使用奖励模型来指导对抗过程,提高奖励模型的质量是提高自动化红队有效性的有效方法。然而,构建奖励模型需要大量资源,尤其是在缺乏强大的开源LLM的情况下。未来的研究将考虑探索使用弱监督来指导自动化红队。
论文:
https://arxiv.org/pdf/2407.03876